VRChatで使える便利な情報を発信中!

【VRChat】声も完全に女の子!?AIボイスチェンジャーこと「RVC」の導入方法!【音声あり】

桜乃こはく

こんにちは!桜乃こはくです!

ChatGPTやStable DiffusionなどのAI技術を利用したツールが話題となっていますが、実はボイスチェンジャーにもAI技術を利用したものがあることをご存知でしょうか?

それが『AIボイスチェンジャー』こと、リアルタイムで音声変換を行えるRVC(Real-Time Voice Cloning)ボイスチェンジャーです!

RVCは、AI技術を使用して人の声をリアルタイムで変換・合成する技術で、声の特徴や音響パターンを解析して自分の声を別の人の声に変換することができます。

これを利用すれば、例えば自分の声を美少女アバターにぴったりのキャラクターボイスに変えたり、声にボイチェン適正が無い方でも、VRChat上で違和感の非常に少ないハイクオリティな女性ボイスを発声することが可能になりました!

この記事では、RVCを利用して実際にVRChatでAIボイスチェンジャーを導入する方法をご紹介したいと思います。

推奨スペック

VRChatでRVCを利用するためには、肉声をRVCにリアルタイムで変換する必要があります。

その為、ある程度のPCスペックが要求されます。

今回使用するフリーのRVC Playerソフト”Koemake“によると、VRAM 4GB以上のNVIDIA製のグラフィックボード(RTX3060 RTX3070Tiで検証済み)を搭載したPCが推奨されているようです。

私自身も試してみましたが、ノートPCなどのオンボードCPUやGPUでは、音声の変換速度が著しく低下するため、動作自体も相当厳しい印象を受けました。少なくともある程度快適にゲームが遊べるくらいのゲーミングPCを用意するのが望ましいでしょう。

また、VRChatと同時に使用する場合は、それなりのパフォーマンスがないと安定した動作は厳しい印象です。

AIボイスチェンジャーが快適に動くPCがよく分からない方は、「VRChatを快適に遊ぶためのPCスペック」よりオススメのPCを紹介しています。

桜乃こはく

VRChatでRVCボイスチェンジャーを使いたい場合、ある程度ゲームが快適に動くゲーミングPCが望ましいですね!

RVCをVRChatへ導入するための手順

VRChatにRVCボイスチェンジャーを導入するには、学習データとして複数の話者の音声を収集したコーパスを学習させた「学習済みの音声データ」と、リアルタイムで音声変換を行うための「RVCプレイヤー」、再生した音声をVRChat上に流すための「仮想オーディオデバイス」の3点を用意する必要があります。

用意するもの
  • 学習済みの音声データ(今回は付属されている音声を使用)
  • いずれかのRVCプレイヤー(今回は”Koemake“を使用)
  • 仮想オーディオデバイス(今回は”VB-CABLE“を使用)

地声をRVC音声に変換するために必要な「RVCプレイヤー」については、無料で使えて導入も簡単な“Koemake”を使用します。

通常であれば「学習済みの音声データ」も必要になりますが、Koemakeには『つくよみちゃん』『電々メイ』の音声モデルが付属されているので、今回はそれらを使用します。

仮想オーディオデバイスについては、独立してインストール可能な「VB-CABLE」を使用します。導入が非常に簡単で他のボイスチェンジャーなどでも使用できるため、是非インストールしておきましょう。

VB-CABLEをインストールする際には、必ず「管理者として実行」を選びましょう。これをしないとエラーが出てインストールが開始されません。

スポンサーリンク

設定方法

Koemakeがインストールできたら、ソフトを起動して立ち上げます。

まず、「Model」から使用したい音声モデルを選びます。(今回はつくよみちゃんを選びます。)

続いて「Input I/F」欄から使用するマイクを選びます。

「Output I/F」欄に先ほどインストールした仮想オーディオデバイスの「CABLE Input(VB-Audio Virtual Cable)」を選択します。

基本的にはこれだけで設定は完了です。

あとはマイクに向かって喋ると変換された音声がOutputに設定したデバイスから出力されます。細かな声質などは、好みに応じて右側にある「Key」や「Index Rate」などを弄ってみましょう。マイクのノイズが気になる場合は「Noise Gate」を少し強めてみると解消されるケースが多いです。

変換された音声の確認をしたい場合は、サウンドプロパティからCABLE Outputを選び、プロパティを開いて「聴く」タブから「このデバイスを聴く」にチェックを入れて適用を選びましょう。

最後に実際にVRChatに入って、サウンドタブからマイク入力欄を「CABLE Output(VB-Audio Virtual Cable)」に設定すれば、変換された音声がVRChat上のマイクから再生されるようになります。

以上で設定は完了です。

桜乃こはく

導入はかなり簡単なので、手軽に試すことができるのは嬉しいですね!

学習済み音声データの配布場所

学習済み音声データは自分で学習させる他に、BOOTH等で「RVC 音声」などで検索すると販売や配布されている音声データが多数ヒットしますので、利用規約やライセンスをチェックした上で好みのものを入手することが可能です。

また、最近では声帯ショップやサービスを通じて学習済み音声データを手に入れることもできます。

例えば、動く城のフィオさんが運営する「Voice Cocktail」というサービスでは、ライセンスに基づいた正規の音声データを提供しており、権利的な問題を心配することなくクリーンな学習済みの音声データを購入することができます。

なお、自分でコーパスデータを用意することで音声データを作成・学習させることも可能ですが、こちらは手順がやや難解で玄人向けの設定になるため今回は割愛します。

学習済み音声モデルの追加方法

学習済み音声モデルの追加方法についてですが、まずkoemakeのフォルダを開いて「models」フォルダの中に用意した音声データをフォルダごとに作成し、その中に音声データ(.pth)を入れることで音声モデルを追加することが可能です。

また、インデックスファイル(.index)や特徴ファイル(.npy)がある場合は、それらを追加することでモデル特有の細かな設定を追加することもできます。

「models」フォルダの中に導入したい学習済み音声モデルを入れます。

あとは、koemakeを起動して、モデル選択から導入した音声モデルを選択すれば使用することができます。

スポンサーリンク

実際の音声と使用感など

ここからは、私が実際にRVCを使用した音声を載せておきます。

使用ソフト:VC Client
【音声データ】
声優統計コーパス – 元気な高い声 (v1.00)
制作:紺瀬ぷち(@petit_conce)様
配布サイト:https://concepetit.wixsite.com/sohkamonet

歌ってみた音声

使用感としては「ゆかりねっと」とボイスチェンジャーの間のような感じで、肉声が完全にキャラクターの声にはなりますが、声のトーンやイントネーション、息の量などの細かな部分まで反映されるため、ボイスロイドを使用するよりもかなり自然な発声が可能になります。

「ボイチェンだと思うような声が作れない…。」「今から喉を鍛えるのがキツイ…。」という方は、一度RVCボイスチェンジャーを試してみるといいと思います。

ただし、RVCを使用したAIボイスチェンジャーも「ゆかりねっと」と同様に、発声時に1.5~2秒程度の遅延がありますので、会話によるコミュニケーションが主体のVRChatにおいては、少々扱いが難しいというのが実際のところです。

どちらかというと、動画配信や収録などで使用する場面でその効果が活きてくると言えますね!

RVCはまだまだ進化途上の技術であり、今後は音質の向上や低遅延化なども進められると思いますので、今後の発展に期待したいところです!

▶こはろぐ一押しのアイテム

急速充電モジュール付きリンクケーブル

Quest 3 / 3S対応の充電端子付きリンクケーブル!
ケーブルの中間に給電用の急速充電モジュールが付いており、18W以上に対応した充電器と充電用ケーブルを接続することで、バッテリー残量を気にすることなくPCVRを実質無制限にプレイできるようになっています!

BOBOVR S3 Pro

ユーザー間で話題のQuest 3 / 3S用のバッテリー搭載ヘッドストラップ!
固定感も高く、額にある排熱ファンのおかげで長時間の使用も蒸れずに快適に過ごすことができます!
交換用のバッテリーを追加で購入すれば、無限にワイヤレスでVRを遊べるように!

スポンサーリンク