LoginSignup
9
4

More than 1 year has passed since last update.

GPU がなくても動く Whisper.cpp を試した

Posted at

2022年は Stable Diffusion や ChatGPT などの AI 技術が話題になりましたが、個人的には 文字起こし AI である Whisper に注目していました。

日本語にも高精度で対応しており、環境されあれば使用も簡単。個人的用途で動画の文字起こしをすることはあるのですが、YouTube の自動字幕や既存のCLOVA Noteなどと比べても精度が高く、実用性は十分にあると考えています。

ただ、個人的な手持ちの環境(ThinkPad X230)は魔改造でもしない限り些か非力。Google Colabなどの別環境を借りて使用していました。

そんな時、GPU が要らずで Whisper が動作する「Whisper.cpp」があることを知り、試してみました。

導入

基本的には README に従えば事足ります。例では base.en のように言語が指定されていますが、 *.ja ファイルはなかったので tiny/base/small/medium/large-v1/large から選びました。個人的には medium 以上であれば手直しする頻度が減るのでおすすめです。

気になった点

本家 Whisper は MP3 などの音声ファイルに対応していましたが、Whisper.cpp は WAV ファイル(16kHz)にしか対応していないようです。ffmpeg などで変換する必要があります。

また、本家 Whisper はデフォルトで VTT ファイル等が出力されましたが、 Whisper.cpp はオプションで指定する必要がありそうです。

文字起こしの結果は本家同等のものでした。ただマシンスペックのせいだとは思いますが、Colab で試した時よりも長く時間がかかりました。長い音声ファイルを変換するより、15分程度に小分けにした方が精度が上がる(句読点など)ようですが、これは本家でも同じだと思われます。

この Whisper.cpp を知った際は、うちの初代ラズパイBでも動作するかなと期待したのですが、それなりにメモリは食うようなので断念。

ただ、GPU がない環境でも動くことが確認できたので、これからも色々試してみたいと思います。

9
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
9
4