背景
ZoomでWeb会議を行った際に画面録画をしましたが、議事録作成をするために後から見返すのは大変です。Microsoft Teamsであれば会議の録画と同時に文字起こしを行う機能がありますが、会議が終了した後に録画データを使用して文字起こしを行う場合、どのようにすれば良いかについて説明します。
ここでは、既に終了した会議の録画データをOpenAIのWhisper APIを使用して文字起こしを行う方法を紹介します。
前提
OpenAI APIのサブスクリプション
Whisper APIを使うためには、OpenAIの課金が必要です。
課金と言ってもプリペイド方式であり、自動チャージを有効にしなければ、プリペイド以上に課金される心配はありません。
手順
Step 1: 音声ファイルの抽出
Web会議などでMP4などの動画形式のファイルの場合、事前にMP3などの音声ファイルの抽出が必要です。
VLC Media Playerを利用して、以下の通り作業を行います。
https://www.videolan.org/vlc/index.ja.html
4.「変換」を選択。「出力ファイル」を入力し、「開始」をクリック。
以上の手順により、mp3ファイルのみが抽出できます。
Step 2: 文字おこしスクリプトの取得と実行
以下URLにアクセスし、記載内容に従ってスクリプトを実行します。
https://github.com/flathill/Whisper-Audio-Transcription
本スクリプトは、Windows 11のWSL2上で動作確認を行っています。動作しない場合は、ご連絡ください。
参考までに、45分程度のWeb会議の音声データ45MBの文字おこしに必要な費用は、0.5ドル程度でした。