More than 1 year has passed since last update.

OpenAI Whisperを使ってノーコードで自動文字起こしを実現する、しかもタダ

Last updated at 2023-05-26Posted at 2023-05-26

はじめに

英語のミーティングを楽して理解する方法ないかなーと考えていたところ、OpenAI Whisperを使った会話の文字起こしを見つけました。文字起こしと同時に翻訳することができます。が、よく調べたら翻訳は英語への翻訳にのみ対応しており、英語を日本語に翻訳することはできないようです。それでも、英語の文字起こしがノーコードで、しかもタダでできます。あとはgoogle翻訳先生にお願いするか、DeepL翻訳を使うなど、ちょっと手間はかかりますが、便利なのかもしれません。

この記事では、オープンソース版を使って、お金がかからない方法で試してみた記録をご紹介します。タダであること以外のメリットはないかな、と考えてみたのですが、セキュリティ面でも優位性がありそうです。Webサービスのようにデータを外部に送信することはなく、ローカルで処理を行うため、セキュリティ的に問題になる可能性は低いかと思います。

前提条件

使用したソフトウェア

この記事で扱うのはOpenAI/Whisperのオープンソース版です。有償サービスであるOpenAI/Documentation/Models/Whisperではありません。仕組みはほとんど同じようです。オープンソース版でも多言語モデルであるsmall、medium、large、large-v2などが利用できました。結果として、十分実用に足りると考えています。

Whisperとは、汎用的なスピーチ認識モデルです。多様なオーディオのデータセットを使ってトレーニングされており、多言語スピーチ認識、スピーチ翻訳、言語特定といった様々なタスクを行うことができます。

実行環境

Windows、MacOS、Linuxなど、様々な環境に対応しているようです。私はMacbook Pro 13-inch, M1, 2020, 16GB Memory, Ventura 13.3.1 (a)を使って試しました。セットアップの前にPython 3.11.3をhomebrewでインストールしています。

セットアップ

インストールとアップデートは下記コマンドです。

pip install -U openai-whisper

コマンドラインツールのffmpegも必要となります。

brew install ffmpeg

コマンドラインで実行

Pythonを使って利用することも可能です。が、この記事では、ノーコードで対応することを目的にしているので、Pythonには言及しません。Pythonでの利用については、github/openai/whisperのページ下部をご参照下さい。

日本語で文字起こし

Zoomでレコーディングしたオーディオファイルから日本語にて文字起こししてみました。業務中に作成したデモムービー(3.3MB、3分26秒の尺)を利用しました。業務上のキーワードが色々含まれるので、途中でカットしています。私の滑舌が悪い部分などが理由で、文字起こしが不正確な部分がありますが、実用に足りると感じています。

whisper audio1454496418.m4a --language Japanese
/opt/homebrew/lib/python3.11/site-packages/whisper/timing.py:57: NumbaDeprecationWarning: The 'nopython' keyword argument was not supplied to the 'numba.jit' decorator. The implicit default value for this argument is currently False, but it will be changed to True in Numba 0.59.0. See https://numba.readthedocs.io/en/stable/reference/deprecation.html#deprecation-of-object-mode-fall-back-behaviour-when-using-jit for details.
  @numba.jit
100%|███████████████████████████████████████| 461M/461M [00:19<00:00, 25.0MiB/s]
/opt/homebrew/lib/python3.11/site-packages/whisper/transcribe.py:114: UserWarning: FP16 is not supported on CPU; using FP32 instead
  warnings.warn("FP16 is not supported on CPU; using FP32 instead")
[00:00.000 --> 00:11.640] このデモビデオではデモアプリに持つ 仕分けシステムを紹介します
[00:11.640 --> 00:18.400] Vantech統合開発環境はご覧のように WebUIとして提供しています
[00:18.400 --> 00:27.060] 左上がAppBuilderというペインになります 左下がVantechタイプという

ファイルとして、いくつか出力されます。.txtは文字だけ出力されており、.srv、.tsv、.vttは字幕ファイルの形式のようです。

ls -la
total 6472
drwxr-xr-x   8 vfuji  staff      256  5 23 18:03 .
drwx------@ 15 vfuji  staff      480  5 23 17:56 ..
-rw-r--r--   1 vfuji  staff    15040  5 23 18:03 audio1454496418.json
-rw-r--r--@  1 vfuji  staff  3278789 11 12  2022 audio1454496418.m4a
-rw-r--r--   1 vfuji  staff     2510  5 23 18:03 audio1454496418.srt
-rw-r--r--   1 vfuji  staff     2027  5 23 18:03 audio1454496418.tsv
-rw-r--r--   1 vfuji  staff     1703  5 23 18:03 audio1454496418.txt
-rw-r--r--   1 vfuji  staff     2311  5 23 18:03 audio1454496418.vtt

精度を向上したい場合

--modelオプションを使うことで、使用するモデルを指定できます。下記では、デフォルトのsmallではなく、一つ上のmediumを利用しています。パラメータ数が3倍強となりますが、VRAMの要求も5GB程度と書いてあります。それなりに処理時間の差がありました。

whisper audio1454496418.m4a --language Japanese --model medium
/opt/homebrew/lib/python3.11/site-packages/whisper/timing.py:57: NumbaDeprecationWarning: The 'nopython' keyword argument was not supplied to the 'numba.jit' decorator. The implicit default value for this argument is currently False, but it will be changed to True in Numba 0.59.0. See https://numba.readthedocs.io/en/stable/reference/deprecation.html#deprecation-of-object-mode-fall-back-behaviour-when-using-jit for details.
  @numba.jit
100%|█████████████████████████████████████| 1.42G/1.42G [00:31<00:00, 47.9MiB/s]
/opt/homebrew/lib/python3.11/site-packages/whisper/transcribe.py:114: UserWarning: FP16 is not supported on CPU; using FP32 instead
  warnings.warn("FP16 is not supported on CPU; using FP32 instead")
[00:00.000 --> 00:11.600] このデモビデオでは、デモアプリに 持つ仕分けシステムを紹介します。
[00:11.600 --> 00:18.280] Vantek統合開発環境は、ご覧のように Web UIとして提供しています。
[00:18.280 --> 00:23.200] 左上が、App Builderというペインになります。
[00:23.200 --> 00:32.800] 左下が、Vantek Typeという永続化領域に保存している 仕分け情報を表示しているペインになります。

日本語を英語に翻訳する

--taskオプションで、翻訳を行うことができます。日本語のまま文字起こしする場合と比べて、著しく時間がかかる、というわけではありませんでした。

whisper audio1454496418.m4a  --language Japanese --model medium --task translate
/opt/homebrew/lib/python3.11/site-packages/whisper/timing.py:57: NumbaDeprecationWarning: The 'nopython' keyword argument was not supplied to the 'numba.jit' decorator. The implicit default value for this argument is currently False, but it will be changed to True in Numba 0.59.0. See https://numba.readthedocs.io/en/stable/reference/deprecation.html#deprecation-of-object-mode-fall-back-behaviour-when-using-jit for details.
  @numba.jit
/opt/homebrew/lib/python3.11/site-packages/whisper/transcribe.py:114: UserWarning: FP16 is not supported on CPU; using FP32 instead
  warnings.warn("FP16 is not supported on CPU; using FP32 instead")
[00:00.000 --> 00:07.000]  In this demo video, I will introduce the demo app, Emotu Shiwake System.
[00:07.000 --> 00:14.000]  As you can see, the Vantech integrated development environment is provided as a web UI.
[00:14.000 --> 00:19.000]  The upper left is the pane called App Builder.
[00:19.000 --> 00:27.000]  The lower left is the shiwake information that is stored in the video area called Vantech Type.
[00:27.000 --> 00:32.000]  This is the pane that displays the shiwake information that is stored in the video area called Vantech Type.

おまけ、処理時間と負荷

複数種類のZoomレコーディングのオーディオファイルと映像ファイルを使って試した結果をまとめてみました。下記の表は参考程度に捉えて下さい。厳密な測定ではありません。他のアプリなどを通常通り使用中の状態でアクティビティモニタを目視で確認しましたが、ユーザCPU負荷は、いずれも39%程度でした。使用済みメモリはモデルによって、多少変動するようです。尺が長ければ、それなりに時間がかかるという結果でしたが、尺が長いからとCPUやメモリの負荷が上がるわけではないようです。

処理対象のファイルサイズについては、有償版と比較すると、優位点かもしれません。2023/5/25現在、有償版のOpenAI Whisper API/Speech to textでは、ファイルのアップロードは25MBまでに制限されている、と記載があります。一方、オープンソース版では、90MBを超えるサイズのファイルを一つのコマンドラインで実行し、問題なく結果が得られました。

下記のようにlanguage optionで言語を指定し、さらにmodel optionでモデルを指定しています。前後にdateを入れることで処理時間を測定しました。

date; whisper audio1454496418.m4a --language Japanese --model large-v2; date

ファイル種別	ファイルサイズ	audio/movie尺	モデル	処理時間
audio (m4a)	3.3MB	3分26秒	small	3分1秒
audio (m4a)	3.3MB	3分26秒	medium	5分44秒
audio (m4a)	3.3MB	3分26秒	large	12分41秒
audio (m4a)	3.3MB	3分26秒	large-v2	9分55秒
audio (m4a)	94.6MB	99分01秒	small	87分46秒
movie (mp4)	10.3MB	3分26秒	medium	5分42秒

日本語文字起こしの精度比較について

Whisper APIの日本語文字起こしの精度について、他の仕組みと比較した記事がありました。参考までにリンクImpressWatch/OpenAIの自動文字起こし「Whisper API」は1分1円以下! 簡単に使える?を記します。

残念なところ

一通り手順を確認し、さて英語のレコーディングを日本語に翻訳しよう、と考えたのですが、「どうやらそのようなオプションはない」ということに気がつきました。残念ながら、実装されていないようです。翻訳は全て英語への翻訳に限る、という対応のようです。

参考

github/openai/whisper

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up