はじめに
以下の記事の最後の部分に書いていた、OpenAI の新モデル(gpt-4o-transcribe、gpt-4o-mini-transcribe)を使った音声認識のお試しの話です。
●【Node.js】OpenAI の API + 新モデル(gpt-4o-mini-tts)で音声合成 - Qiita
https://qiita.com/youtoy/items/a35f7907eaa4259e417e
【余談】OpenAI のモデルに関連した音声認識を過去に試した話
過去に音声認識サービス・ライブラリなどを試してみて、記事を書いたりしたこともありました。
その中で OpenAI のモデルが関わるものでは、「MLX版の Whisper」や「Azure で提供されている Whisper」、他に「GitHub で公開されているバージョンの Whisper」を試して記事を書いたことがあります。
- M4 Mac mini で mlx-whisper を試す(pyenv・venv を使った環境準備も)【Python-4】 - Qiita
- curlコマンドで Azure OpenAI Service の tts-1 を使って音声合成して whisper による音声認識も行う - Qiita
- Windows 11 で pyコマンド(Python Launcher for Windows)による仮想環境構築 + OSS版の Whisper【Python-3】 - Qiita
また、オンラインイベント関連の依頼をいただき、API版の Whisper のデモや利用時の音声ファイルの処理まわりの話をしたこともありました。
実際に試す
公式の情報を確認する
実際に試していくために OpenAI公式の APIリファレンスでサンプルを確認してみます。
JavaScript のサンプル
以下の JavaScript のサンプルを見てみます。
Default というタブで示されている内容は、以下の通りです。
import fs from "fs";
import OpenAI from "openai";
const openai = new OpenAI();
async function main() {
const transcription = await openai.audio.transcriptions.create({
file: fs.createReadStream("audio.mp3"),
model: "gpt-4o-transcribe",
});
console.log(transcription.text);
}
main();
ちなみに、それ以外のタブを選ぶことで、ストリーミングやタイムスタンプ付の処理を行う場合などのサンプルを見ることができます。
今回は「Default」の内容で進めていきます。
公式サンプルを用いた処理の実行
公式サンプルをベースに、お試しを進めます。
利用するライブラリ・APIキー
その際、以下の TypeScript・JavaScript用のライブラリを使います。
●openai - npm
https://www.npmjs.com/package/openai
上記を npmコマンドでインストールして、APIキーは環境変数に設定します。
(Mac の zhs上で exportコマンドを使うやり方で、一時的にキーを設定しました)
利用する音声ファイル
今回利用する音声ファイルは、冒頭に掲載していた記事の中で用いていたものと同じものにします。
処理の実行と結果(gpt-4o-transcribe)
用いたコードは以下のとおりです。
公式サンプルとの違いは、音声ファイルの名前を変えたところくらいです。
import fs from "fs";
import OpenAI from "openai";
const openai = new OpenAI();
async function main() {
const transcription = await openai.audio.transcriptions.create({
file: fs.createReadStream("tests_jfk.flac"),
model: "gpt-4o-transcribe",
});
console.log(transcription.text);
}
main();
上記を実行した結果を以下に示します。
元の音声をテキストにしたものが得られたことを確認できました。
処理の実行と結果2(gpt-4o-mini-transcribe)
上記では、「gpt-4o-transcribe」を使っていましたが「gpt-4o-mini-transcribe」のほうも試してみます。
以下のとおり、先ほどのコードのモデルを指定していた部分のみ書きかえたものを用いました。
import fs from "fs";
import OpenAI from "openai";
const openai = new OpenAI();
async function main() {
const transcription = await openai.audio.transcriptions.create({
file: fs.createReadStream("tests_jfk.flac"),
model: "gpt-4o-mini-transcribe",
});
console.log(transcription.text);
}
main();
これを実行した結果は、以下のとおりです。
先ほど比べると、記号の部分で微妙な違いがありますが(※ 先ほどは「,」だった部分が、なぜか「:」や「−」になっている)、他は同じ内容が得られました。
利用履歴の確認
最後に、ダッシュボードの Usage のページで、API の利用履歴を確認してみました。
表示されていた内容は以下のとおりです。
gpt-4o-transcribe、gpt-4o-mini-transcribe が表示されるカテゴリは、Audio系ではなく Chat Completionsになるようです。
(そのカテゴリ分けは、前回の記事の gpt-4o-mini-tts と同じでした)