はじめに
今回は配信での音声変換について説明します。特に音声のリアルタイム変換の仕組みやツールについて取り上げます。
基本的な仕組み
マイクから入力された音声は音声変換ツールで変換された後、仮想オーディオデバイスに出力されます。Zoom等のアプリケーションでは、入力にマイクの代わりに仮想オーディオデバイスを指定することで変換後の音声を受け取ります。また、音声変換ツールにモニタ出力の機能がある場合、これをスピーカーに出力することで変換後の音声を聞きながら会話をすることができます。
※ようするに、この図をちゃんと理解すれば、ツールやアプリケーションが変わっても接続に迷うことはなくなります。
仮想オーディオデバイスの準備
この界隈では有名なVB-CABLEというソフトウェアを使用します。配布サイトからインストーラーをダウンロードしてインストールします。
配布サイト:https://vb-audio.com/Cable/
※Windowsではインストーラーを右クリックして「管理者として実行」する必要があります。
※無料ですがいわゆるドネーションウエアです。気に入ったら寄付しましょう。
音声変換ツールの準備
今年の5月頃に正式版がリリースされたばかりのParavoというソフトウエアを使用します。配布サイトからインストーラーをダウンロードしてインストールします。
配布サイト:https://parakeet-inc.com/paravo
インストールは2段構えになっていて、まずランチャーをインストールしてランチャーから本体をダウンロード&インストールします。このとき、「安定動作版」と「開発段階版」を選択できますが、通常の使用なら「安定動作版」で良いでしょう。
※「無料プラン」では、ずんだもんを含む5キャラクターの音声が使用できます。サブスクリプション、または、買い切りでキャラクターを買い足すことができます。
音声変換ツールの設定
Paravoが起動したら「リアルタイム」タブで「デバイス設定」を行います。「入力デバイス」にマイク、「出力デバイス」に上記で準備した仮想オーディオデバイスを選択します。「モニターデバイス」にスピーカーを選択すると変換後の音声を聞きながら会話することができます。
次に右上の設定(歯車アイコン)から、設定画面に移動し「もう一度録音」の「ヘッドフォン]アイコンをクリックします。「事前録音」画面が開くので指示に従って自分の音声を登録します。
をクリックします。
「リアルタイム」タブに戻ったら、「話者選択」の円をクリックし「キャラクター」タブから「すんだもん」を選択します。選択後、「リアルタイム」タブに戻ったら画面下の「開始」ボタンをOnにします。これで、音声変換が始まります。
アプリケーションの設定
Zoomで変換した音声を使用するには「設定」→「オーディオ」の「マイク」で仮想オーディオデバイスを選択します。「マイクのテスト」をクリックし会話に合わせて「入力レベル」のバーが動くことを確認します。