はじめに
2026年4月2日、MicrosoftはMAI(Microsoft AI)ブランドで3つの基盤モデルを同時に発表しました。音声文字起こしの MAI-Transcribe-1、音声生成の MAI-Voice-1、画像生成の MAI-Image-2 です。
Microsoft takes on AI rivals with three new foundational models - TechCrunch
OpenAIに130億ドル以上を投資してきたMicrosoftが、なぜ独自の基盤モデルを開発し、自社プラットフォームFoundry経由で提供するのか。本記事では3モデルの技術詳細から戦略的意図、そして同時期に発表された日本への100億ドル投資まで、Microsoft AI戦略の全体像を整理します。
MAI 3モデルの技術詳細
MAI-Transcribe-1(音声文字起こし)
MAI-Transcribe-1は、Microsoftにとって初の自社開発音声認識モデルです。25言語に対応し、エンタープライズ向けの高精度な文字起こしを提供します。
なぜ25言語で低WERを達成できるのか
Microsoftは内部実装の詳細を公開していません。以下はVibeVoice公開情報からの推測です。
MAI-Transcribe-1が高精度を実現している背景には、MicrosoftがVibeVoiceファミリーで培ったアーキテクチャ上の知見があります。VibeVoice-ASRでは、7.5Hzという超低フレームレートの連続音声トークナイザーにより、音声信号をAcoustic tokenとSemantic tokenの2系統に分離しています。Acoustic tokenが音響的な特徴(発音、アクセント、ノイズ耐性)を担い、Semantic tokenが言語的な意味構造を担うことで、言語固有の音響特性と言語横断的な意味表現を独立して学習できます。
この分離アーキテクチャにより、たとえば日本語のピッチアクセントとフランス語のリエゾンのように、言語ごとに異なる音響現象をAcoustic token側で個別に最適化しつつ、「数字の読み上げ」「固有名詞の認識」のような言語横断パターンをSemantic token側で共有できます。結果として、言語ごとの専用モデルを用意せずとも、単一モデルで25言語にわたって低いWERを維持できる構造になっています。
さらに、低フレームレート設計はそのまま推論速度の向上にも寄与します。一般的な音声認識モデルが16kHzの波形から毎秒50〜100フレームを処理するのに対し、7.5Hzでは1秒あたり7.5フレームで済むため、シーケンス長が大幅に短縮されます。これがAzure Fast比2.5倍の処理速度と、GPU計算コスト50%削減の技術的根拠です。
性能面では、多言語音声認識ベンチマークFLEURSで総合WER(単語誤り率)1位を記録しています。25言語中11言語でFLEURS首位を獲得し、残る14言語でもWhisper-large-v3を上回っています。競合比較での誤り率は3.9%で、GPT-Transcribeよりも低い数値です。
現在、CopilotのVoice Modeやディクテーション機能の内部エンジンとしても稼働しています。
| 項目 | MAI-Transcribe-1 |
|---|---|
| 対応言語 | 25言語 |
| ベンチマーク | FLEURS WER 1位 |
| 処理速度 | Azure Fast比 2.5倍 |
| GPUコスト | 競合比 約50%削減 |
| トークナイザー | 7.5Hz 連続音声トークナイザー(Acoustic / Semantic 2系統) |
| 価格 | $0.36 / 時間 |
MAI-Voice-1(音声生成)
MAI-Voice-1は高忠実度の音声生成モデルです。最大の特徴は生成速度で、単一GPUで1秒間に60秒分の音声を生成できます。Microsoft自身が「現在利用可能な最も効率的な音声システムの一つ」と位置づけています。
60倍速生成を支える技術的アプローチ
Microsoftは内部実装の詳細を公開していません。以下はVibeVoice公開情報からの推測です。
MAI-Voice-1の60倍速生成は、VibeVoice-TTSで採用された「次トークン拡散(Next-Token Diffusion)フレームワーク」の商用発展形と考えられます。従来のTTSモデルは、テキストからメルスペクトログラムを生成し、それをボコーダーで波形に変換する2段階パイプラインが主流でした。この方式では、メルスペクトログラムの時間解像度が高く(通常80〜100フレーム/秒)、長文の生成には相応の計算量が必要でした。
次トークン拡散フレームワークでは、LLMがテキストのコンテキストを理解して低フレームレート(7.5Hz)の離散トークン列を自己回帰的に生成し、拡散ヘッドがそのトークンから音響ディテール(ピッチの微細変動、息遣い、声質のニュアンス)を並列的に復元します。LLMによるコンテキスト理解で韻律やイントネーションの自然さを確保しつつ、拡散モデルの並列生成能力で速度を稼ぐという二段構成です。
7.5Hzのトークナイザーは1秒の音声をわずか7.5トークンで表現するため、60秒の音声でも450トークン程度のシーケンス長で済みます。現在のGPUであれば450トークンの自己回帰生成は1秒未満で完了できるため、これが「単一GPUで60倍速」という数値の技術的な裏付けです。
Personal Voiceの仕組み
Personal Voice機能では、わずか10秒の音声サンプルからカスタムボイスを生成できます。10秒という短さで話者の特徴を捉えられるのは、Acoustic tokenが話者固有の音響特性(声質、ピッチ域、フォルマント構造)を低次元のベクトルとしてエンコードするためです。事前学習済みの音声空間に対して、少量のサンプルから話者埋め込みを抽出し、生成時にその埋め込みを条件として注入することで、新しいテキストを指定した声で読み上げられます。
企業独自のブランドボイスの構築、アクセシビリティ用途(ALS等で発話が困難になった方の声の保存と再現)、多言語コンテンツの一貫した声での提供など、活用範囲は広いです。
CopilotのAudio Expressionsやポッドキャスト機能のエンジンとして既に組み込まれています。
| 項目 | MAI-Voice-1 |
|---|---|
| 生成速度 | 60秒分の音声 / 1秒(単一GPU) |
| アーキテクチャ | LLM自己回帰 + 拡散ヘッド(次トークン拡散フレームワーク) |
| カスタムボイス | 10秒の音声サンプルから話者埋め込みを抽出 |
| 価格 | $22 / 100万文字 |
MAI-Image-2(画像生成)
MAI-Image-2は、Arena.aiの画像モデルリーダーボードで3位にランクインしています。フォトリアリスティックな画像生成、画像内テキストレンダリング、複雑なレイアウト精度が強みです。
写真家、デザイナー、ビジュアルストーリーテラーとの密接なコラボレーションを経て開発されたとされ、グローバルマーケティンググループのWPPが初期パートナーとして大規模なクリエイティブ制作ワークフローに導入しています。
Copilot、Bing Image Creator、PowerPointの画像生成機能を内部で駆動しています。
| 項目 | MAI-Image-2 |
|---|---|
| ベンチマーク | Arena.ai リーダーボード 3位 |
| 価格(テキスト入力) | $5 / 100万トークン |
| 価格(画像出力) | $33 / 100万トークン |
なぜMicrosoftが独自モデルを開発したのか
OpenAIとの関係の変質
Microsoftは2019年以降、OpenAIに累計130億ドル以上を投資してきました。GPT-5.4は依然としてCopilotの主力LLMであり、OpenAIはMicrosoftのクラウドバックログの45%を占めています。一見すると蜜月関係に見えますが、2025年のパートナーシップ再交渉で力学が根本的に変わりました。
Microsoft releases new AI models to expand further beyond OpenAI - GeekWire
130億ドル投資の構造と再交渉の経緯
Microsoftの投資は段階的に行われました。2019年に10億ドル、2023年1月に追加で100億ドル規模、その後も継続的に追加投資が行われ、累計130億ドル超に達しています。当初の契約では、MicrosoftはOpenAIのモデルに対する独占的なクラウドプロバイダー権と、AGI達成前の商用技術に対するライセンス権を取得していました。一方で、OpenAIがAGIを達成した場合、そのAGI技術はライセンスの対象外となるという条項が存在し、これがMicrosoftにとっての構造的リスクでした。
2025年の再交渉では、この力学が大きく書き換えられました。新契約の核心は以下の3点です。
1つ目は、MicrosoftがAGIを独自に追求する権利の明文化です。従来はOpenAIのモデルに依存する前提でしたが、新条項ではMicrosoftが自社でAGIレベルのモデルを開発・商用化することが契約上認められました。MAIブランドでの基盤モデル開発は、この条項を法的根拠として進められています。
2つ目は、OpenAIの営利法人への移行に伴う出資関係の再構成です。OpenAIが非営利から営利企業への転換を進める中で、Microsoftの持分比率や利益配分の条件が見直されました。
3つ目は、独占的クラウドプロバイダー条項の緩和です。OpenAIがOracle等の他クラウドでもワークロードを実行できる余地が生まれた一方、Microsoftも他社モデルの活用やOSS独自モデルの開発を制約なく行える自由度を獲得しています。
CEOサティア・ナデラが「3〜5年での自立」を語る背景には、この再交渉で得たAGI独自追求権があります。「自立」とはOpenAIとの関係を切るという意味ではなく、OpenAIのモデルが使えなくなっても事業が継続できる状態を指しています。Mustafa Suleymanを中心としたAI部門(Microsoft AI)の再編も、この戦略を実行するための組織的基盤として進められました。
Microsoft's AI Chief Targets AI Self-Sufficiency and OpenAI Independence - WinBuzzer
3つの戦略的意図
MAI 3モデルの同時発表には、明確な戦略的意図があります。
1つ目は依存リスクの分散です。単一のモデルプロバイダーに依存する構造は、供給リスクだけでなく交渉力の低下も意味します。音声・画像という非LLM領域で自社モデルを持つことで、OpenAIとの関係をより対等なものに近づけられます。
2つ目は利益率の確保です。他社モデルをホスティングするだけでは、売上は立ってもマージンが薄くなります。自社モデルであれば、ライセンス費用が発生せず、GPU計算コストの最適化も自由に行えます。MAI-Transcribe-1の「競合比GPU計算コスト50%削減」という数値は、そのまま利益率の改善に直結します。
3つ目はFoundryエコシステムの強化です。後述するように、Foundryというプラットフォームの価値を高めるには、そこでしか使えない独自モデルが必要です。
投資家への回答
Microsoftはデータセンターに数百億ドル規模の投資を続けています。「OpenAIのワークロードをホスティングしているだけではないか」という投資家の懸念に対し、MAIモデルは「自社で収益化可能なプロダクトを生み出している」という明確な回答になっています。
Foundry経由の提供が意味すること
Azure AI FoundryからMicrosoft Foundryへ
MAI 3モデルはすべてMicrosoft Foundry経由で提供されます。Foundryの位置づけを理解するには、MicrosoftのAIプラットフォーム階層全体を把握する必要があります。
Azure AIエコシステムの階層構造
Azure OpenAI Serviceは、OpenAIのモデルをAzureのセキュリティ・コンプライアンス基盤の上で提供するサービスです。企業はOpenAI APIと互換のエンドポイントを通じて、自社のVNet内でGPTモデルを利用できます。
Microsoft Foundry(旧Azure AI Studio → Azure AI Foundry → Microsoft Foundry)は、Azure OpenAI Serviceの上位に位置する統合プラットフォームです。OpenAIモデルだけでなく、MAIモデル、Meta Llama、Mistral、Cohereなど複数プロバイダーのモデルを一元的に管理し、モデルのデプロイ、ファインチューニング、エージェント構築までをカバーします。名称から「Azure」が外れたことは、Azureの一機能ではなくMicrosoftのAI戦略全体の中核プラットフォームであるという位置づけの変化を示しています。
MAIモデルはFoundry内で「ファーストパーティモデル」として特別な位置を占めます。OpenAIモデルはライセンス料が発生しますが、MAIモデルはMicrosoft自社開発のためマージンが高く、Foundryプラットフォーム全体の収益性を底上げする役割を担っています。開発者にとっては、同じFoundry SDK・同じAPIパターンでOpenAIモデルとMAIモデルを切り替えられるため、ユースケースごとに最適なモデルを選択できます。
2026年に入ってから、FoundryのREST API v1(/openai/v1/ ルート)がGA(一般提供)SLAを伴って本番運用可能になりました。Chat Completions、Responses、Embeddings、Files、Fine-tuning、Models、Vector Storesといった主要エンドポイントがすべて本番対応済みです。
What's new in Microsoft Foundry - February 2026
Microsoft Agent Frameworkとの統合
Foundry Agent Serviceも2026年にGAとなり、Python、JavaScript、Java、.NETの各SDKが本番対応しています。MAIモデルは FoundryChatClient を通じてAgent Frameworkにシームレスに統合でき、音声入力→文字起こし→LLM処理→音声出力というパイプラインをFoundry内で完結させることが可能です。
microsoft/agent-framework - GitHub
MAI Playgroundも playground.microsoft.ai で公開されており、3モデルをブラウザ上で試すことができます(米国リージョン限定)。
Foundry Localによるオフライン対応
Foundry Localは、NVIDIA GPU搭載のローカルハードウェアでマルチモーダルモデル(テキスト、画像、音声)をクラウド接続なしに実行できる機能です。データ主権が厳格に求められるエンタープライズ環境での需要に応えるもので、MAIモデルとの組み合わせにより、完全にオンプレミスで音声AIパイプラインを構築することが視野に入ります。
VibeVoice ── MicrosoftのOSS音声AI戦略
MAIモデルの商用展開と並行して、MicrosoftはVibeVoiceというオープンソースの音声AIファミリーをGitHubで公開しています。2026年4月時点でスター数は37,000を超えており、OSSの音声AIプロジェクトとして急速に注目を集めています。
モデルラインナップ
| モデル | パラメータ数 | 用途 |
|---|---|---|
| VibeVoice-ASR | 7B | 60分の音声を1パスで文字起こし。50言語以上対応 |
| VibeVoice-TTS | 1.5B | 最大90分の長尺音声合成。4話者同時対応 |
| VibeVoice-Realtime | 0.5B | リアルタイムストリーミングTTS。レイテンシ約300ms |
技術的な特徴は、7.5Hzという超低フレームレートの連続音声トークナイザー(Acoustic / Semantic)と、LLMによるコンテキスト理解+拡散ヘッドによる音響ディテール生成を組み合わせた「次トークン拡散フレームワーク」です。低フレームレートにより長尺音声でも計算効率を維持できます。
MITライセンスで提供されており、2026年3月にはHugging Face Transformersライブラリにも統合されました。
MAIモデルとの関係
VibeVoiceとMAIモデルは、商用クローズドとOSSオープンの二面戦略を構成しています。VibeVoiceでコミュニティとエコシステムを育て、MAI-Voice-1 / MAI-Transcribe-1でエンタープライズの収益を確保する。MetaのLlamaとMeta AIの関係に近い構図です。
開発者の具体的な利用シナリオ
MAIモデルの技術仕様やFoundryの構成を踏まえた上で、実際にどのようなアプリケーションが構築できるのか、具体的なシナリオを整理します。
シナリオ1: 多言語会議の自動文字起こしと要約
グローバル企業の会議で、日本語・英語・中国語が混在する1時間の音声を処理するケースです。
音声入力(混在言語)
→ MAI-Transcribe-1(文字起こし・言語自動判別)
→ GPT-5.4(要約・アクションアイテム抽出)
→ Teams連携(参加者への配信)
MAI-Transcribe-1は25言語に対応しており、言語切替の検出も内蔵しています。1時間の音声に対して、Azure Fast比2.5倍の処理速度であれば、会議終了後数分以内にトランスクリプトを生成できます。コスト面では$0.36/時間のため、1会議あたり約$0.36です。GPT-5.4での要約処理を加えても、1会議あたり$1未満で完結します。Whisper APIと同価格帯ながらWER精度で優位なため、固有名詞や専門用語の認識精度が求められるビジネス会議では実用上の差が出ます。
シナリオ2: 音声チャットボットの構築
カスタマーサポート用の音声対話システムをFoundry上で構築するケースです。
ユーザー音声入力
→ MAI-Transcribe-1(リアルタイム文字起こし)
→ GPT-5.4(意図理解・回答生成)
→ MAI-Voice-1(音声応答生成)
→ ユーザーへ音声出力
このパイプラインはFoundry Agent FrameworkのFoundryChatClientを使って構築でき、各モデル間の接続をFoundry SDKが抽象化します。MAI-Voice-1のPersonal Voice機能を使えば、企業のブランドキャラクターの声や、担当者の声を再現した応答が可能です。60倍速生成のため、100文字程度の応答であれば音声生成のレイテンシは数十ミリ秒で、ユーザーが体感する待ち時間はLLMの推論時間が支配的になります。
Foundry Localを使えば、同じパイプラインをオンプレミスで実行できるため、音声データを社外に出せない金融機関やヘルスケア企業でも導入可能です。
シナリオ3: 多言語コンテンツのローカライズ
eラーニング教材や製品紹介動画を多言語展開するケースです。
原稿テキスト(日本語)
→ GPT-5.4(多言語翻訳)
→ MAI-Voice-1(各言語での音声生成 + Personal Voiceで統一話者)
→ MAI-Image-2(教材内のビジュアル生成)
従来、多言語のナレーション制作は言語ごとにナレーターを手配し、スタジオ収録を行う必要がありました。MAI-Voice-1のPersonal Voiceであれば、オリジナル話者の10秒サンプルから各言語の音声を生成できるため、「同じ声」で多言語コンテンツを効率的に制作できます。10言語展開、各30分のコンテンツの場合、音声生成コストは数十ドル程度です。
音声AI価格比較 ── 開発者はどれを選ぶべきか
音声生成(TTS)
| サービス | 価格(100万文字あたり) | 特徴 |
|---|---|---|
| MAI-Voice-1 | $22 | 60秒/1秒生成、10秒でカスタムボイス |
| OpenAI tts-1 | $15 | 6種のプリセットボイス、シンプルなAPI |
| OpenAI tts-1-hd | $30 | tts-1の高品質版 |
| Azure Neural TTS | $16 | 100言語以上対応、SSML制御 |
| Azure HD V2 | $30 | 高品質ニューラル音声 |
| Google Neural2 | $16 | WaveNet後継、安定品質 |
| ElevenLabs | $120〜$220 | 最高品質、ボイスクローニング |
MAI-Voice-1は100万文字あたり$22と、OpenAI tts-1($15)やAzure Neural TTS($16)よりも高めです。ただし、単一GPUで60倍速生成という処理速度とPersonal Voice機能を考慮すると、リアルタイム性やカスタマイズ性を重視するユースケースでは十分に競争力があります。
コスト最優先ならOpenAI tts-1やAzure Neural TTS、品質最優先ならElevenLabs、速度とカスタマイズのバランスならMAI-Voice-1という棲み分けになります。
音声文字起こし(STT)
| サービス | 価格 | 特徴 |
|---|---|---|
| MAI-Transcribe-1 | $0.36/時間 | FLEURS WER 1位、25言語 |
| OpenAI Whisper API | $0.36/時間 | 57言語対応、広い言語カバレッジ |
| Azure Speech(リアルタイム) | $1.00/時間 | 低レイテンシ、リアルタイムストリーミング |
| Google Speech-to-Text v2 | $0.96/時間 | Chirpモデル、多言語対応 |
MAI-Transcribe-1はWhisper APIと同じ価格帯でありながら、WER精度でリードしています。25言語対応はWhisperの57言語より少ないものの、主要言語をカバーしており、精度重視のエンタープライズ用途では有力な選択肢です。
Microsoft 日本100億ドル投資との接点
MAI 3モデルの発表翌日の4月3日、MicrosoftはBrad Smith副会長の東京訪問に合わせて、日本への100億ドル(約1.6兆円)投資を発表しました。2026年から2029年にかけて、Technology / Trust / Talentの3本柱で展開されます。
Microsoft deepens its commitment to Japan with $10 billion investment - Microsoft News
投資の3本柱
1つ目のTechnologyでは、さくらインターネットおよびSoftBankとの提携により、日本国内でGPUベースのAIコンピュートサービスを拡張します。Azure Localの拡充により、断続的な接続環境やデータ主権が求められるミッションクリティカルなワークロードにも対応します。GitHubも日本でのEnterprise Cloudユーザー向けにデータレジデンシーを提供開始しています。
2つ目のTrustでは、内閣サイバーセキュリティセンター(NISC)との脅威情報共有や、警察庁デジタル犯罪ユニットとの連携強化が含まれます。日本の研究者向けに100万ドルの研究助成プログラムも設立されます。
3つ目のTalentでは、2030年までに100万人のエンジニア・開発者の育成を目標としています。富士通、日立、NEC、NTTデータ、SoftBankとのパートナーシップによる実施です。さらに日本電機電子情報産業労組を通じて58万人の労働者にAI基礎スキルを提供します。
MAIモデルとの接続
日本へのインフラ投資は、MAIモデルの提供基盤でもあります。Foundry経由でMAIモデルを日本リージョンから低レイテンシで利用できる環境が整えば、日本語を含む多言語対応のMAI-Transcribe-1は、国内企業の音声AI導入を加速させる可能性があります。2024年の29億ドル投資から100億ドルへの大幅増額は、アジア太平洋地域でのAIインフラ競争が本格化していることを示しています。
まとめ ── Microsoftの「全方位AI」戦略
MAI 3モデル、Foundryプラットフォーム、VibeVoice OSS、日本100億ドル投資。これらは個別のニュースではなく、Microsoftの一貫した戦略の構成要素です。
- OpenAI依存からの段階的脱却(独自基盤モデル開発)
- Foundryによるモデル〜エージェント〜デプロイの垂直統合
- OSSコミュニティの育成と商用モデルの二面戦略
- グローバルインフラ投資によるリージョン展開
2027年のAI自立を目標とするMicrosoftにとって、2026年Q2はその道筋を示す転換点です。開発者にとっては、Foundry上でOpenAIモデルとMAIモデルを併用できる選択肢が広がったことが実務的な恩恵です。音声AIの領域では、精度・速度・価格のバランスを見ながら、用途に応じた使い分けが求められるフェーズに入りました。
参考リンク
- Microsoft takes on AI rivals with three new foundational models | TechCrunch
- Introducing MAI-Transcribe-1, MAI-Voice-1, and MAI-Image-2 in Microsoft Foundry | Microsoft Tech Community
- Microsoft releases new AI models to expand further beyond OpenAI | GeekWire
- Microsoft's AI Chief Targets AI Self-Sufficiency and OpenAI Independence | WinBuzzer
- microsoft/VibeVoice | GitHub
- What's new in Microsoft Foundry | February 2026
- microsoft/agent-framework | GitHub
- Microsoft deepens its commitment to Japan with $10 billion investment | Microsoft News
- TTS API Pricing in 2026 | LeanVox Blog
- MAI models announcement | Microsoft AI