More than 1 year has passed since last update.

Azure AIのSpeech Studioを軽く触ってみた

Posted at 2024-12-29

概要

Azure AIのSpeech StudioというWebサービスを使うと、トレーニング済みのモデルを利用して、ブラウザで、音声の解析や、音声とテキストの相互変換のデモを試すことができます。

主な機能

Speech（音声）の主な機能は以下のとおりです。

テキストを読み上げる。
- 音声合成マークアップ言語（SSML）を利用して、読み上げ方を変える。
音声をテキストに変換する。（文字起こし）
意図認識を実装する
- 何をして欲しいか、何を教えて欲しいかと言った意図をあらかじめ登録して、それにヒットさせる。
キーワード認識
- 「Hey, Siri~」のように、ある処理を呼び出す開始合図となる言葉を登録できる。

Speech Studioとは

Copilotに聞いてみました。

AzureのSpeech Studioは、アプリケーションに音声サービスの機能を組み込むためのUIベースのツールセットです。コーディングなしでプロジェクトを作成し、音声テキスト変換、テキスト読み上げ、音声翻訳などの機能を簡単にテストおよび統合できます12。

具体的には、以下のような機能があります12：

リアルタイム音声テキスト変換：音声をリアルタイムでテキストに変換します。
バッチ音声テキスト変換：大量の音声データを一括で文字起こしします。
カスタム音声モデル：特定のボキャブラリや話し方に合わせた音声認識モデルを作成します。
発音評価：発音の正確性と流暢性を評価します。
音声翻訳：音声を他の言語に翻訳します。
カスタム音声：独自のカスタム音声を作成し、テキスト読み上げに使用します。
これにより、開発者は音声認識や音声合成の機能を簡単にアプリケーションに組み込むことができます。

URLはこちらです。