OpenAIのWhisperは、人間と同レベルの精度で音声認識ができると言われている、オープンソースのツールです。
公式サイト https://openai.com/blog/whisper
この記事では、Whisperのちょっと変わった使い方として、出力の字幕ファイルから得られる「いつ話し始めて、いつ話し終わったか?」のタイミングデータを利用して動画を切り貼りし、好きな動画から英語教材を自作する方法を紹介します。
こんな動画教材が作れます
まず最初に、今回Whisperを使って作った、自分用の英語教材をご紹介します。『英語のハノン』のように、同じ英文をひたすら反復練習するための教材です。
(C)大場つぐみ・小畑健/集英社・VAP・マッドハウス・NTV
『デスノート / DEATH NOTE コンプリート DVD-BOX』より引用
(C)大場つぐみ・小畑健/集英社・VAP・マッドハウス・NTV
『デスノート / DEATH NOTE コンプリート DVD-BOX』より引用
認識精度の検証
教材として使える程度の認識精度が出せているかどうか、Netflixの『デスノート』の字幕データを利用して検証しました。認識モデルはbaseモデルを利用しました。
(C)大場つぐみ・小畑健/集英社・VAP・マッドハウス・NTV
『デスノート / DEATH NOTE コンプリート DVD-BOX』より引用
この長さの英文で、本質的な誤認識は3箇所でした。問題なさそうです。
作成手順
単一のmp4ファイルをブラウザからアップロードして作成する、お試し用のシンプルな手順と、より本格的に利用するための、Google Driveのmp4ファイル(複数ファイル可能)から作成する方法の2つをご説明します。
お試し用のシンプルな手順
-
下記リンクからGoogle Colaboratoryを開き、Googleアカウントでログインします
-
しばらく待つと動画ができあがります。動画の長さによっては時間がかかります。この例では13分15秒かかりました。
本格利用のためのGoogle Driveを使った方法
- Google Driveの特定フォルダにmp4動画を置きます。サンプルでは「movie」に置いたと仮定しています。
- 下記サンプルのURLを開きます
https://colab.research.google.com/gist/dai-pop/41664d7b2c7ec110e3253d8e0c40ca44/whisper_english_gdrive.ipynb - 各セルを上から準場に実行していきます
- Google Driveに教材動画が出来上がります
利用したツール
- 音声認識:OpenAI Whisper https://github.com/openai/whisper
- 動画の切り貼り:Videogrep https://github.com/antiboredom/videogrep
- 実行環境: Google Colaboratory https://colab.research.google.com/