はじめに
先日、OpenAIが公開している音声認識モデル Whisper を使って様々な音声の文字起こしをしました。
結論から言うと 「驚くほど精度が良い」 という体験でした。
様々な文字起こしサービスを使用してきた筆者としてはその精度の高さに大変驚いたのですが、そこで本記事では、Whisperの概要、導入手順、実際の使い方をまとめます。
未経験でも簡単に試せるので、音声データの文字起こしや議事録作成に興味がある方はぜひ参考にしてください。
Whisperとは
- OpenAIが公開している 汎用音声認識モデル
- 多言語対応(日本語含む100+言語)
- 精度が非常に高く、雑音がある会話でも認識可能
- ローカルで実行できるため、プライバシー面でも安心
研究用途だけでなく、会議録やインタビューの文字起こしにも実用的です。
動作環境(参考)
- macOS Sonoma / Intel MacBook Pro
- Python 3.9.6
- Whisper 2025.6.25
- 実行環境: CPU(GPUなし)
導入方法
前提環境
- Python 3.9+
- pip が利用可能な環境
インストール
pip install openai-whisper
※ CPU環境でも動作しますが、長時間音声の場合は処理時間がかかります。
GPUがある場合は --device cuda
を指定すると高速に動作します。
実際の使い方
基本コマンド
whisper your_audio_file.mp3 --model small --language Japanese --task transcribe
よく使うオプションまとめ
whisper your_audio_file.mp3 --model medium --language Japanese --task transcribe --device cpu
主なオプションと感想
-
--model {tiny, base, small, medium, large}
- 利用するモデルサイズです。
大きいほど精度↑、処理時間↑ -
試した感想:
-
tiny
→ 速いけど日本語は誤認識が多い -
small
→ 実用ラインギリギリの印象、長時間になると誤変換も残る -
medium
→ 精度と速度のバランスが良い、筆者としてはこのモデルが1番現実的な気がしています。
数十分の音声をCPUでかけて数時間かかったが、結果は手直し最小限で済んだ -
large
→ 精度最高、ただしCPUだと現実的に厳しい(GPU推奨)
-
- 利用するモデルサイズです。
-
--language Japanese
- 言語を指定(自動検出も可能だが誤判定することがあるので明示推奨)
-
--task {transcribe, translate}
-
transcribe
→ そのまま文字起こし -
translate
→ 英語に翻訳しながら文字起こし -
試した感想: 英語翻訳は「参考用」レベル、日本語精度を優先するなら
transcribe
一択で十分。
-
-
--device {cpu, cuda}
- 実行環境を指定、GPUがあれば
cuda
で数倍高速化。 -
試した感想: CPU環境で数十分の音声を
medium
で処理すると3〜4時間、GPUがあれば現実的な速度になるはず。
- 実行環境を指定、GPUがあれば
-
--output_format {txt, vtt, srt, json, all}
- 出力形式を選択。
-
試した感想:
-
txt
→ シンプルに全文欲しいとき便利 -
srt
/vtt
→ 動画字幕用にそのまま流用できる -
json
→ タイムスタンプごとの解析やシステム連携に使える
-
-
--output_dir ./outputs
- 出力先ディレクトリを指定可能、大量に処理するときは分けておくと管理しやすい。
-
--verbose {True, False}
- ログの詳細度を調整。
-
試した感想: 長時間ファイルを回すときは
False
にするとログがシンプルで見やすい。
実行中の警告について
実際にCPU環境で長めの音声を medium
モデルで処理したときの一部ログです。
/Users/xxx/.local/lib/python3.9/site-packages/whisper/transcribe.py:132: UserWarning: FP16 is not supported on CPU; using FP32 instead
warnings.warn("FP16 is not supported on CPU; using FP32 instead")
これは「CPU環境では半精度浮動小数点(FP16)が使えないので、代わりに単精度(FP32)で計算します」という意味の警告です。
GPU環境なら高速化のためにFP16が使われますが、CPUでは元々非対応なので気にしなくて大丈夫です。
むしろ 「CPUだとFP32で動くのが普通」 という確認メッセージのようなものだと思えばOKです。
実際に試してみた感想
-
精度が非常に高い
普通の会話レベルであれば、ほぼ手直し不要なレベルで文字化。 -
雑音が混じる会話でも強い
録音環境が悪くても意外と正確に書き起こしてくれた。 -
CPUでも動作するが時間はかかる
数十分〜1時間規模の音声で数時間、GPU環境があると実用性が格段に上がる。
活用例
- 会議の議事録作成
- インタビュー記事の下書き生成
- ポッドキャストや動画の字幕作成
- 学習教材のトランスクリプト化
まとめ
Whisperは誰でも使える強力な文字起こしツールです。
- 導入は
pip install
だけ - 精度は商用サービス並み
- ローカル実行できてプライバシー面でも安心
音声データを扱う方にはぜひおすすめしたいライブラリでした。
さいごに
もう有料の文字起こしサービスは不要です。
それくらいのインパクトがあるツールです、文字起こし難民の方はぜひ一度試していただければ、その有用性を実感いただけると思います!