Whisperのlarge-v2がこっそりリリースされたようです。こちらの論文(と解説動画)によると英語以外での精度が圧倒的に上がっているそうです。
Whisper最新版のインストール
通常はこちらでインストールしますが
pip install git+https://github.com/openai/whisper.git
最新版はこちらでインストールします(githubより)
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
追加でffmpegも必要になったみたいですね。pip install ffmpegではなくffmpeg-pythonのほうをインストールする必要があります。
pip install ffmpeg-python
pip install ffmpegだとこちらのエラーが出ます。
https://stackoverflow.com/questions/73842876/fmpeg-has-no-attribute-input
実行
2.8GBのモデルがダウンロードされます。今のところはlarge-v2と指定します。将来的にはlargeで参照できるようになると書いてありますね。
import whisper
#model = whisper.load_model("small")
model = whisper.load_model("large-v2")
適当なYoutube動画から音声を取得して試してみます。
yt-dlp -x --audio-format mp3 https://youtu.be/hogehoge
ダウンロードされたmp3ファイルを指定してWhisperで書き起こします。
path = 'hogehoge.mp3'
result = model.transcribe(path, verbose=True, language='ja')
以前のバージョンと比較はしていないので精度についてはよくわからないですね。以前のバージョンでもかなりの精度が出てました。試したところ60分以上の音声の連続書き起こしでもエラーにならないようです。