AivisSpeechでの現実的な作業フロー
今回は、AivisSpeechを実際に利用する場合の、「再生成機能」の使用を前提とした、現実的な作業フローを紹介したいと思います。
生成AIのtext-to-speech機能を利用する方法もありますが、AivisSpeechに使い勝手の面でメリットがあり、再生成機能が重要になることを以前の記事でお伝えしました。
また、機械学習による音声合成機能には、合成する度に揺らぎがあり、ガラガラ・ポンだということを紹介しました。
本記事では、ガラガラ・ポンなので再生成を繰り返し、聞き心地がいい塩梅の音声を得るフローを共有したいと思います。
なお、AivisSpeechの基本的な使用方法については、ネット上に記事がたくさんあります。
本記事ではそうした基本的な利用法・設定は別途、知っていて、実施済みの前提で重要な点のみを記載したいと思います。
1. すべての音声合成を行なう
アプリを起動したら、ナレーションさせたいテキストに対するすべての音声合成結果を作ります。
- 音声合成モデル(声)を選択し、プリセットペインでパラメータを指定する
- AivisSpeechを起動し、テキストを入力する
- 「全部書き出し」または「音声をつなげて書き出し」の、使い方に適している方を実行する(すべてのテキストの音声合成が行われる)
- 「連続再生」で発声を確認する
2. 発声を修正する
音声合成の結果を確認し、発声が合っていない箇所を修正します。
- 発声がテキストと異なる場合、「読み方&アクセント辞書」で読み方を優先度高めに登録する
- 読み方を修正したいテキストを、「単語の読みとアクセントをデフォルトに戻す」ボタンを実行して読み方を修正する
- アクセントが意図と異なる場合も同様に修正するか、手動でアクセントを指定する
ここまではネット上で広く紹介されている手順の焼き直しです。
3. 発声を改善する
以下が本記事のポイントです。
- 読み方とアクセントを適切に指定しても、意図と異なる発声になっているテキストの個所で、「音声を再生成して再生します」ボタンをクリックし、良くなるまで何度か繰り返す
- テキストの漢字の個所で発声が改善されない場合、漢字をひらがなに変更して再生成する
- テキストの記号”」”の個所で発声が詰まって聞こえる場合、発音の「,」を削除して再生成する
- アクセントがどうしても改善されない場合は、言い回しを変える
- すべてのテキストで修正を完了したら、「全部書き出し」または「音声をつなげて書き出し」の、使い方に適している方を実行する(音声合成済みなので高速に保存される)
問題点
以下のような問題点がありますが、生成AIの延長で提供されているtext-to-speechよりは遥かに実用的で秀逸です。
- 文ごとの音量の差が気になる
- 音声合成っぽい音の歪や、音の引っ掛かり感を解消できない場合がある
- アクセントがどうしても改善されない場合は言い回しを変える必要がある
- 音声合成モデルの学習の状態によって発声に違いが生じるが、どれが最新・最良の学習状態にあるかがわからない
今後、さらに改善されることを期待したいと思います。
動画編集との関係
動画のナレーションにAivisSpeechを利用する場合、基本的には音声の尺が基準になるように思います。
最悪、言い回しを変えて音声の尺を変えざるを得ない場合があることを考慮すると、音声合成をきっちり完成させた上でタイムライン編集へ移るような工程になると思います。