2022年は Stable Diffusion や ChatGPT などの AI 技術が話題になりましたが、個人的には 文字起こし AI である Whisper に注目していました。
日本語にも高精度で対応しており、環境されあれば使用も簡単。個人的用途で動画の文字起こしをすることはあるのですが、YouTube の自動字幕や既存のCLOVA Noteなどと比べても精度が高く、実用性は十分にあると考えています。
ただ、個人的な手持ちの環境(ThinkPad X230)は魔改造でもしない限り些か非力。Google Colabなどの別環境を借りて使用していました。
そんな時、GPU が要らずで Whisper が動作する「Whisper.cpp」があることを知り、試してみました。
導入
基本的には README に従えば事足ります。例では base.en
のように言語が指定されていますが、 *.ja
ファイルはなかったので tiny
/base
/small
/medium
/large-v1
/large
から選びました。個人的には medium
以上であれば手直しする頻度が減るのでおすすめです。
気になった点
本家 Whisper は MP3 などの音声ファイルに対応していましたが、Whisper.cpp は WAV ファイル(16kHz)にしか対応していないようです。ffmpeg などで変換する必要があります。
また、本家 Whisper はデフォルトで VTT ファイル等が出力されましたが、 Whisper.cpp はオプションで指定する必要がありそうです。
文字起こしの結果は本家同等のものでした。ただマシンスペックのせいだとは思いますが、Colab で試した時よりも長く時間がかかりました。長い音声ファイルを変換するより、15分程度に小分けにした方が精度が上がる(句読点など)ようですが、これは本家でも同じだと思われます。
この Whisper.cpp を知った際は、うちの初代ラズパイBでも動作するかなと期待したのですが、それなりにメモリは食うようなので断念。
ただ、GPU がない環境でも動くことが確認できたので、これからも色々試してみたいと思います。