音声解析ソフトAudacityにWhisperがOpenVINO(TM)のプラグインとして実装されていました。これによる文字起こしが非常に便利なのでレポートします。
ポイント
- かなり正確な日本語での文字起こし(実務の下書きとしては十分なレベル)
- すべてローカル環境で動く(機内モードで実行できました)
- すべて無料(少なくとも当記事執筆時点では)
実行環境
CPU: Intel(R) Core(TM) i9-13900H
RAM: 32GB
OS: Windows 11
準備
詳細は各項目の▼をクリックして展開してご覧ください。
1) Audacityをインストールする
↑よりインストーラーをダウンロードしてください。
インストーラーを実行し、説明に従って操作すればOKです。
2) OpenVINOのプラグインをインストールする
https://plugins.audacityteam.org/ai-plugins/ai-plugins
↑がポータルページですが、そこから↓のGitHubのリリースページに飛べます。
https://github.com/intel/openvino-plugins-ai-audacity/releases
Githubのリリースページをスクロールすると、最新リリースの中に Assets という項目があり、そこに「audacity-win-v3.5.1-R2.2-64bit-OpenVINO-AI-Plugins.exe」といったインストーラーがあります。
ダウンロード後、インストーラーを実行してください。手順の途中にモデルの選択が出てきます。僕は「base」と「large-v3」を選びました。
実行
Audacityを立ち上げ、文字起こしをするファイルを開きます。ドラッグ&ドロップ可能です。
動画を文字起こしする場合は ffmpeg等のプラグインが必要となる場合があります。ffmpegのプラグインの導入方法はこちら(https://support.audacityteam.org/basics/installing-ffmpeg) です。
文字起こしを実行する
図のように、メニューバーの「解析」⇒「OpenVINO Whisper Transcription」(図中(1))をクリックするとダイアログボックスが開きます。Whisperのモデル(図中(2))と言語(図中(3))を選択してください。モードは「transcribe」のままで大丈夫です。
適用をクリックすると文字起こしが実行されます。モデルにもよりますが、音声データの時間の1.2倍から1.5倍の時間がかかるような気がします。
起こした文字データを保存する
図のようにTransctiptionというトラックが追加されます。ここにラベルデータとして文字起こしデータが入っています。Transcriptionトラックの「選択」(図中(4))をクリックし、選択状態にします。メニューバーの「ファイル」⇒「ほかをエクスポート」⇒「ラベルをエクスポート」(図中(5))をクリックすると保存場所を指定するダイアログボックスが立ち上がります。あとは通常手順です。
実行結果例
試しにVOICEVOXで会話させたファイルを作成し、baseモデルとlarge-v3モデルでそれぞれ文字起こしをさせてみました。
文字起こしデータには開始秒、終了秒、内容が入っています。baseモデルには若干の誤読がありますが、どちらもちゃんと文字起こしできています。
実務にて、会議の録画データに対して使ったときはbaseモデルはひどいものでしたが、large-v3モデルは許容できるレベルでした。複数の人が同時に話さない・ノイズが少ない・どの人の音量もある程度同じなどbaseモデルでも活躍できる条件はなにかあるのかもしれません。まずは実行が速いbaseモデルで文字起こしをしてみて、その出来をみてlarge-v3モデルを使ってみるなど、手探りしながら使ってみてください。