More than 1 year has passed since last update.

WhisperでDrive内の動画からテキストを抽出してみた(Google Colaboratory)

Last updated at 2023-07-10Posted at 2023-07-10

はじめに

最近OpenAIのサービスが急速に普及してますね。
最新技術に触れたいなあということで趣味で動画からテキストを抽出するアプリを作ってみました。

使う技術は、
・FFmpeg
・OpenAI Whisper
のたった２つです。

Whisperの仕様上、25MB(大体20分くらいの動画)以下の音声ファイルしか文字起こしはできませんが、誰でも簡単に無料でできます。

下にColaboratoryのサンプルコードも載せてるので、「はよ教えてくれや！！」って方は、コピーして使ってください。

※この記事では簡略化のために、必要最低限のコードだけ載せています。

では、早速行きましょう〜〜！

まずGoogle Drive内に保存された動画を取得するために、Google Colaboratory(以下、Colab)がGoogle Drive(以下、Drive)にアクセスできるよう設定します。

#Google Driveにアクセスするために必要な操作
from google.colab import drive
drive.mount('/content/drive')

ここでは、FFmpegという動画や音声を変換するソフトウェアを使って、動画から音声を抽出します。

#FFmpegから音声を抽出
!ffmpeg -i "movie_path" -vn "output_audio"

movie_path: Drive内の動画のパス
output_audio: 音声抽出後のファイル名(なんでもよい)

!whisper {current_audio_path} --model medium --language Japanese -o "output_text_folder"

今回はmodelを"medium"に設定しています。精度的には本当は"large"がいいんですが、RAMの使用容量を超しちゃう可能性があるので、"medium"で我慢してます。

上記のコードで文字起こしをすると、複数のテキストファイルを出力してくれます。それらテキストファイルを入れるフォルダ名を -o の後に指定することができます。

以上、動画からテキストを抽出する方法をお伝えしました！

下にコードを貼っておくので、是非使ってみてください〜