More than 1 year has passed since last update.

【rails】ActiveStorage上のmp3ファイルにWhidperAPIを使う

Last updated at 2023-09-15Posted at 2023-09-15

はじめに

PythonでWhisperを使用する方法は簡単に見つかったが、rails上でwhisperを使用する方法があまり出てこなかった。
今回は、試した中で成功したプログラムを紹介する。

状況

・ActiveStorageを使用して、S3上にmp3ファイルを保存している。
・mp3ファイルは、Chatモデルのmp3_fileというカラムに格納されている。
・mp3ファイルをWhisperを使って文字起こししたい。

準備

rails上でWhisperを使うには、"ruby-openai"というgemをインストールする必要がある。
また、S3にアクセスするには、"aws-sdk-s3"というgemも必要である。
Gemfileに、

gem "ruby-openai"
gem "aws-sdk-s3"

を追記して、bundle installしておきましょう。

S3からファイルを取り出す

まずは、S3から音声ファイルを取り出す。

s3_client = Aws::S3::Client.new(region: ENV["REGION"], access_key_id: ENV["ACCESS_KEY_ID"], secret_access_key: ENV["SECRET_ACCESS_KEY"])
file = s3_client.get_object(bucket: ENV["BUCKET"], key: @chat.mp3_file.key).body.read

S3からのファイル取り出しは、

region、access_key_id、secret_access_keyを与えて、クライアントを立てる。
bucket、keyを与えて、ファイルを取得する。

という流れで行います。

tempfileに一時保存する

次に、取り出したファイルをtempfileに書き込みます。
tempfileに一時保存しておくことで、Whisperで扱えるようになるようです。

まず、tempfileに格納する関数を用意しておきます。

def create_tempfile(file)      
    tempfile = Tempfile.open(["temp", ".mp3"])
    tempfile.binmode
    tempfile.write(file)
    tempfile.rewind

    return tempfile
  end

TempfileのOpen関数で、mp3形式のtempfileを作成します。
binmodeでバイナリーモードにします。
write(file)で書き込みます。
変更を加えた後はrewindする必要があるみたいです。(iosを入力の先頭に配置する。)
最後に、tempfileを返します。

create_template関数にS3から取ってきたfileを与えて、tempfileに書き込みましょう。

tempfile = create_tempfile(file)

Whisperを使って文字起こし

それでは、Whisperを使ってみましょう。
まずは、文字起こしする関数を作成します。

def transcribe(tempfile)
  client = OpenAI::Client.new(access_token: ENV["OPENAI_API_KEY"])
  response = client.transcribe(
    parameters: {
      model: "whisper-1",
      file: File.open(tempfile, 'rb'),
  })

  return response.dig("text")
end

APIキーを使ってクライアントを立てる。
transcribe関数を使って文字起こしします。
tempfileを与えることで文字起こしすることができます。
responseから文字起こしの結果を取り出し、returnします(response.dig("text"))。

この関数にcreate_tempfileで返したtempfileを渡し、文字起こししましょう。

transcribed_text = transcribe(tempfile)

おわりに

今回は、rails上でWhisperを使ってみました。
tempfileを使用するということろがコツだったようです。

参考になったら「いいね」と「ストック」お願いします！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up