目次
- Voice Live API デモ動画
- 音声認識・生成AI・音声合成を単一のWebSocketで扱う統合APIが提供され、150以上の言語、600を超える音声、30以上の高精細DragonHD音声を搭載
- GPT-4o RealtimeやPhiなど複数モデルの選択が可能で、ノイズ抑制、エコーキャンセル、割り込み検知、アバター同期にも対応し、Azure AI Agent Service や Semantic Kernel と連携可能
- Video Translation デモ動画
- 大規模動画を70以上の言語に翻訳し、Lip Sync機能、GenAIによる文脈および感情翻訳、マルチスピーカー検出、音声と映像の同期アルゴリズムにより、感情とトーンを保った多言語版を短時間で生成
- Voice Sync for Avatar デモ動画
- カスタムTTSアバターのセルフサービスポータルが一般提供され、音声とアバターを一括で学習可能に
- DragonHD Neural TTS
- 「HD(High Definition)音声」の基盤モデルで、高音質とLLMによる文脈および感情理解を備え、話し手のトーンや抑揚、ポーズを即座に調整し、人間らしい会話を実現
- Speech Playground
- Azure AI Foundry上で提供。Speech Studioで試していた機能をノーコードで試すことが可能に
- Fast Transcription 拡張
- デンマーク語、フィンランド語、ヘブライ語などに対応言語を拡大。マルチリンガルモデルで 15 言語を同時に認識
Azure AI Foundry Agent Service
Azure AI Search
-
ドキュメントレベルのアクセス制御
- ADLS Gen2上のPOSIX風ACLおよびAzure RBACをインデクサーが読み取り、検索インデックスに自動で適用。クエリ時にはユーザーIDに基づいて結果をフィルター
-
Agentic Retrieval
- AIエージェントがチャット履歴を含む複雑なクエリを分解し、検索対象のインデックス選択とクエリ生成を行い、必要に応じて並列でクエリを実行し、結果を統合
-
インデックス定義の拡張
- インデックス定義に description が指定可能に
-
マルチベクターサポート
- 分割不要で1ドキュメントに最大100のベクトルを付与可能。複数ベクトルの結果セットをマージし、親ドキュメント単位に集約して出力
-
GenAIプロンプトスキル
- インデックス作成時のパイプラインからAzure OpenAIやAzure AI FoundryにデプロイしたLLMを呼び出し、テキストや画像に対して要約・言い換え・説明・構造化抽出などを実行
- 検索のほか、BIダッシュボードなど、同じ抽出結果を二重利用可能
-
Document Layout skill
- PDF等の文書データに特化した簡易Azure AI Document Intelligence機能が提供され、OCRとAI Document IntelligenceのLayoutモデルを活用し、セクション階層付きMarkdown、チャンク化テキスト(位置情報付き)、抽出画像(位置情報付き)として出力
-
スコアリング プロファイルとセマンティック ランカーの統合
- セマンティック ランカーに新しいフィールド @search.rerankerBoostedScore が追加され、スコアリングプロファイルをリランクレベルで直接適用
- その他
- Azure Logic Apps でのインデクサー実行、マルチモーダル検索の簡素化など、多岐にわたる発表がございました。
参照
マイクロソフトBuild 2025ニュースブック
超速報!現地からお届けするMicrosoft Build レポート