LoginSignup
23

More than 1 year has passed since last update.

OpenAIの音声認識Whisperを使って好きな洋画やアニメから英語教材を自作する

Last updated at Posted at 2022-10-01

OpenAIのWhisperは、人間と同レベルの精度で音声認識ができると言われている、オープンソースのツールです。

公式サイト https://openai.com/blog/whisper

この記事では、Whisperのちょっと変わった使い方として、出力の字幕ファイルから得られる「いつ話し始めて、いつ話し終わったか?」のタイミングデータを利用して動画を切り貼りし、好きな動画から英語教材を自作する方法を紹介します。

こんな動画教材が作れます

まず最初に、今回Whisperを使って作った、自分用の英語教材をご紹介します。『英語のハノン』のように、同じ英文をひたすら反復練習するための教材です。

(C)大場つぐみ・小畑健/集英社・VAP・マッドハウス・NTV
『デスノート / DEATH NOTE コンプリート DVD-BOX』より引用

(C)大場つぐみ・小畑健/集英社・VAP・マッドハウス・NTV
『デスノート / DEATH NOTE コンプリート DVD-BOX』より引用

認識精度の検証

教材として使える程度の認識精度が出せているかどうか、Netflixの『デスノート』の字幕データを利用して検証しました。認識モデルはbaseモデルを利用しました。

スクリーンショット 2022-10-01 14.17.24.png

(C)大場つぐみ・小畑健/集英社・VAP・マッドハウス・NTV
『デスノート / DEATH NOTE コンプリート DVD-BOX』より引用

この長さの英文で、本質的な誤認識は3箇所でした。問題なさそうです。

作成手順

単一のmp4ファイルをブラウザからアップロードして作成する、お試し用のシンプルな手順と、より本格的に利用するための、Google Driveのmp4ファイル(複数ファイル可能)から作成する方法の2つをご説明します。

お試し用のシンプルな手順

  1. 下記リンクからGoogle Colaboratoryを開き、Googleアカウントでログインします

    https://colab.research.google.com/gist/dai-pop/7ed153eb33bbecd3f3389088a270fddd/whisper_english.ipynb

    スクリーンショット 2022-10-01 11.02.40.png

  2. ランタイム → ランタイムのタイプを変更
    スクリーンショット 2022-10-01 11.25.04.png

  3. ハードウェアアクセラレータをGPUに設定します
    スクリーンショット 2022-10-01 11.24.39.png

  4. ソースコードを編集して練習したい単語を設定します
    スクリーンショット 2022-10-01 10.10.26.png

  5. 左上の再生ボタンを押します
    スクリーンショット 2022-10-01 10.13.40.png

  6. 「このまま実行」を押します
    スクリーンショット 2022-10-01 11.13.49.png

  7. 「ファイルを選択」から、英語の会話が入ったmp4動画ファイルをアップロードします
    スクリーンショット 2022-10-01 11.14.43.png

  8. しばらく待つと動画ができあがります。動画の長さによっては時間がかかります。この例では13分15秒かかりました。

スクリーンショット 2022-10-01 122107.png

本格利用のためのGoogle Driveを使った方法

  1. Google Driveの特定フォルダにmp4動画を置きます。サンプルでは「movie」に置いたと仮定しています。
  2. 下記サンプルのURLを開きます
    https://colab.research.google.com/gist/dai-pop/41664d7b2c7ec110e3253d8e0c40ca44/whisper_english_gdrive.ipynb
  3. 各セルを上から準場に実行していきます
  4. Google Driveに教材動画が出来上がります

利用したツール

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
23