GPU がなくても動く Whisper.cpp を試した

Posted at 2023-01-31

2022年は Stable Diffusion や ChatGPT などの AI 技術が話題になりましたが、個人的には文字起こし AI である Whisper に注目していました。

日本語にも高精度で対応しており、環境されあれば使用も簡単。個人的用途で動画の文字起こしをすることはあるのですが、YouTube の自動字幕や既存のCLOVA Noteなどと比べても精度が高く、実用性は十分にあると考えています。

ただ、個人的な手持ちの環境（ThinkPad X230）は魔改造でもしない限り些か非力。Google Colabなどの別環境を借りて使用していました。

そんな時、GPU が要らずで Whisper が動作する「Whisper.cpp」があることを知り、試してみました。

導入

基本的には README に従えば事足ります。例では base.en のように言語が指定されていますが、 *.ja ファイルはなかったので tiny/base/small/medium/large-v1/large から選びました。個人的には medium 以上であれば手直しする頻度が減るのでおすすめです。

気になった点

本家 Whisper は MP3 などの音声ファイルに対応していましたが、Whisper.cpp は WAV ファイル（16kHz）にしか対応していないようです。ffmpeg などで変換する必要があります。

また、本家 Whisper はデフォルトで VTT ファイル等が出力されましたが、 Whisper.cpp はオプションで指定する必要がありそうです。

文字起こしの結果は本家同等のものでした。ただマシンスペックのせいだとは思いますが、Colab で試した時よりも長く時間がかかりました。長い音声ファイルを変換するより、15分程度に小分けにした方が精度が上がる（句読点など）ようですが、これは本家でも同じだと思われます。

この Whisper.cpp を知った際は、うちの初代ラズパイBでも動作するかなと期待したのですが、それなりにメモリは食うようなので断念。

ただ、GPU がない環境でも動くことが確認できたので、これからも色々試してみたいと思います。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up