More than 1 year has passed since last update.

Whisperのlarge-v2がリリースされたので試してみた

Posted at 2022-12-17

Whisperのlarge-v2がこっそりリリースされたようです。こちらの論文（と解説動画）によると英語以外での精度が圧倒的に上がっているそうです。

Whisper最新版のインストール

通常はこちらでインストールしますが

pip install git+https://github.com/openai/whisper.git

最新版はこちらでインストールします（githubより）

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

追加でffmpegも必要になったみたいですね。pip install ffmpegではなくffmpeg-pythonのほうをインストールする必要があります。

pip install ffmpeg-python

2.8GBのモデルがダウンロードされます。今のところはlarge-v2と指定します。将来的にはlargeで参照できるようになると書いてありますね。

import whisper
#model = whisper.load_model("small")
model = whisper.load_model("large-v2")

適当なYoutube動画から音声を取得して試してみます。

yt-dlp -x --audio-format mp3 https://youtu.be/hogehoge

ダウンロードされたmp3ファイルを指定してWhisperで書き起こします。

path = 'hogehoge.mp3'
result = model.transcribe(path, verbose=True, language='ja')

以前のバージョンと比較はしていないので精度についてはよくわからないですね。以前のバージョンでもかなりの精度が出てました。試したところ６０分以上の音声の連続書き起こしでもエラーにならないようです。