はじめに
Microsoftが2024年の注目のAIトレンドの一つとしてマルチモーダルAIを挙げていました。本記事では先日GAを迎えたAzure OpenAI Whisper modelを中心に音声をテキストに変換する方法を整理します。
Azure OpenAI Whisper model
Azure OpenAI Whisper modelが2024/3/13にGAになりました。Whisperは音声をインプットとして提供することでトランスクリプトを生成することができるモデルです。このモデルが現状最も期待されるのはコールセンターのシナリオだと思います。会話データを書き起こしたり、違う言語に翻訳したりすることで、短い時間で会話の内容分析を可能にします。
MicrosoftはAzure AI SpeechとAzure OpenAI Serviceの両方を通じてOpenAI Whisperを使用できるとしています。本記事では、Microsoftの提供するSpeech to Textモデルの違いを整理してどんな時にどのサービスを活用するべきかを説明します。
Azure AI Speech modelsとAzure OpenAI Whisper modelの比較
以下の3パターンの使い分けが検討できます。
- リアルタイム文字起こし
- リアルタイム処理に活用できます
- 対応可能なモデル
- Azure AI Speech models
- バッチ(24時間以内)文字起こし
- 25MBを超える大きなファイルに対応できますが、Azure OpenAI 上での実行に比べ長い処理時間が見込まれます
- 対応可能なモデル
- Azure AI Speech models, Whisper model on Azure AI Speech
- バッチ(ニアリアルタイム)文字起こし
- 高速な処理が期待できますが、25MBを超えるファイルを扱えません
- 対応可能なモデル
- Whisper model on Azure OpenAI Service
これらの機能はMicrosoft Azure AIのSpeech Studioにて簡単にテストすることが可能です(Azure OpenAI Whisper modelの利用にはAzureのアカウントが必要ですが、Azure AI Speech modelsはサインイン不要でテスト可能です)。
Azure OpenAI Whisper modelは、生成AIならではの柔軟性を活かし、文字起こしの際に英語に翻訳するなどプロンプトを通じて出力をガイドすることができます。今は利用できる用途・範囲が限定的ですが生成AIモデルの進化に伴って制限が少なくなっていくことが期待できます。
Microsoftの情報は以下も合わせてご参考ください。
まとめ
先日GAしたAzure OpenAI Whisper modelについて、従来のAzure AI Speechとの使い分けを整理し、今後の広がりについて考察しました。マルチモーダルの観点では、他のモデルと連携し、動画(映像と音声)をインプットとして生成AIに処理させるためにも重要なコンポーネントになるかと思います。そのあたりの仕組みも整理していきたいです。