※お役に立てたらストック、いいねをよろしくお願いします!!
<本記事のターゲット層>
- Microsoft AIやAzure AI Foundryの最新動向を追っているエンジニア
- GitHub CopilotやVS Codeで使える新しいAIモデルに関心がある開発者
- 画像生成、音声合成、文字起こしなどマルチモーダルAIの動向を知りたい人
- 企業向けAIエージェントや社内データ活用を検討している技術担当者
- Microsoftの自社AIモデル戦略をざっくり把握したい人
🔷Microsoft AIが発表した「7つのMAIモデル」とは
Microsoft AIは2026年6月2日、社内開発の新しいMAIモデル群を発表しました。
発表の中心にあるのは、推論、コーディング、画像生成・編集、文字起こし、音声合成といった複数の用途に対応する7つのMAIモデルです。
公式発表はこちらです。
今回のポイントは、単に「新しいAIモデルが1つ出ました」という話ではありません。Microsoft AIが、用途別の自社モデル群をまとめて提示し、さらにそれらをMicrosoft Foundry、GitHub Copilot、VS Code、PowerPoint、OneDrive、Teams、Dynamics 365 Contact Centerなどの製品や開発者向け基盤に接続しようとしている点が重要です。
発表本文では、これらのモデルを「現実のタスクに対応するマルチモーダルなMAI model family」と位置づけています。つまり、文章だけでなく、コード、画像、音声、企業の業務フローまで含めて、MicrosoftのAI基盤を広げていく動きだと見ると理解しやすいです。
今回発表されたモデルは、次の7つです。
| モデル名 | 主な用途 | 注目ポイント |
|---|---|---|
| MAI-Thinking-1 | 推論 | 複雑な問題解決、数学、ソフトウェアエンジニアリング向け |
| MAI-Code-1-Flash | コーディング | GitHub CopilotやVS Code向けの軽量なagentic codingモデル |
| MAI-Image-2.5 | 画像生成・画像編集 | Arenaでの高評価、PowerPointやOneDriveへの統合 |
| MAI-Image-2.5-Flash | 画像生成・画像編集 | 高速・低コスト版。MAI PlaygroundやFoundryで確認可能 |
| MAI-Transcribe-1.5 | 音声文字起こし | 43言語対応、専門用語へのキーワードバイアス対応 |
| MAI-Voice-2 | 音声合成 | 感情表現、複数言語、短い参照音声によるvoice prompting |
| MAI-Voice-2-Flash | 音声合成 | 低コスト・高効率版としてcoming soon |
モデルの提供先としては、Microsoft Foundryに加えて、OpenRouter、Fireworks、Basetenも挙げられています。
▸初心者向けに言うと
今回の発表は、「Microsoftが自前のAIモデルを用途別にそろえ始めた」と捉えると分かりやすいです。
これまでは、1つの大きなAIモデルで文章、コード、画像、音声などをまとめて扱う説明が多くありました。一方で今回のMAIモデル群は、用途ごとに得意分野を分けています。コードを書くならMAI-Code-1-Flash、画像生成や画像編集ならMAI-Image-2.5、音声を文字にするならMAI-Transcribe-1.5、文章から自然な音声を作るならMAI-Voice-2、複雑な推論ならMAI-Thinking-1、というように役割が整理されています。
🔷7つのMAIモデルの違いを用途別に整理
ここからは、各モデルの特徴をもう少し具体的に見ていきます。
▸MAI-Thinking-1:推論向けのフラッグシップモデル
MAI-Thinking-1は、Microsoft AIの推論モデルです。
公式の個別ページでは、35B active、約1T total parametersのsparse Mixture of Expertsモデルと説明されています。Mixture of Expertsは、ざっくり言うと、必要な専門部分だけをうまく使い分けるモデル構造です。全体としては大きなモデルでも、推論時に使う部分を絞ることで、性能と効率のバランスを取りやすくなります。
MAI-Thinking-1では、SWE-Bench Proなどのソフトウェアエンジニアリング系ベンチマークや、AIME 2025/2026のような数学系評価での性能が強調されています。また、Claude Sonnet 4.6とのブラインドな人間評価で好まれた、という説明もあります。
提供状況としては、確認時点ではMicrosoft Foundryでprivate preview、MAI Playgroundでのpublic previewはcoming soonとされています。記事や社内メモで扱う場合は、「すでに誰でもPlaygroundで使える」と断定しない方が安全です。
▸MAI-Code-1-Flash:GitHub CopilotとVS Code向けの軽量コーディングモデル
MAI-Code-1-Flashは、5Bパラメータの軽量なagentic codingモデルです。
このモデルで特に面白いのは、GitHub CopilotやVS Codeでの実利用をかなり意識している点です。公式ページでは、GitHub Copilotのproduction harnessで訓練・評価していること、単なるベンチマーク最適化ではなく、開発者が普段使うワークフローを中心に設計していることが説明されています。
たとえば、SWE-Bench ProではClaude Haiku 4.5に対して51.2%対35.2%という差が示されています。また、SWE-Bench Verifiedでは最大60%少ないtokenで難しい問題を解く、といった効率面も強調されています。
開発者目線では、これはかなり実用寄りの発表です。高性能な巨大モデルを毎回使うのではなく、日常的なコード編集、リファクタリング、テスト失敗の確認、複数ターンの修正といった作業に、軽量で反応のよいモデルを組み込む方向性が見えます。
▸MAI-Image-2.5 / Flash:画像生成と画像編集を強化
MAI-Image-2.5は、text-to-imageとimage editingに対応する画像モデルです。
公式ページでは、Arenaのtext-to-imageでNo.3、image editingでNo.2と説明されています。特に、テキストレンダリング、プロンプト追従、製品画像、局所的な編集、顔やアイデンティティの一貫性などが強調されています。
Microsoft製品との連携も重要です。MAI-Image-2.5はPowerPointで高品質な画像生成に使われ、OneDriveでは不要物の除去、背景の整理、画像補正などの精密編集用途で展開中と説明されています。
また、MAI-Image-2.5-Flashは高速・低コスト版です。Microsoft Foundryのカタログでは、version 2026-06-02、ライフサイクルはGenerally available(GA)、入力はtext/image、出力はimageとして確認できます。
Foundryカタログ上では、context windowは131.072k、output token limitは4096と表示されています。画像モデルであっても、自然言語プロンプトや画像入力を扱うため、開発者向けにはこうしたカタログ情報も確認しておくと便利です。
▸MAI-Transcribe-1.5:43言語対応の文字起こしモデル
MAI-Transcribe-1.5は、speech-to-text、つまり音声を文字に変換するモデルです。
公式ページでは、43言語対応、FLEURS multilingual transcription benchmarkでの高精度、Artificial AnalysisでWER 2.4%・3位という結果が紹介されています。WERはWord Error Rateの略で、文字起こしの誤り率を示す指標です。数値が低いほど、音声を正しく文字にできていると考えられます。
実務で便利そうなのは、キーワードバイアスです。これは、人名、製品名、医療用語、社内略語など、通常の文字起こしモデルが間違えやすい単語を事前に指定し、モデルが文脈に応じて認識しやすくする仕組みです。公式ページでは、キーワードバイアスによってFLEURSでWERが30%改善したと説明されています。
Teams会議、コールセンター、社内インタビュー、営業記録など、音声データを業務で扱う場面ではかなり重要な機能です。
▸MAI-Voice-2:自然な音声合成と同意ガードレール
MAI-Voice-2は、text-to-speech、つまり文章から音声を生成するモデルです。
発表本文では15言語対応とされています。詳細ページでは、英語、イタリア語、フランス語、ドイツ語、ヒンディー語、スペイン語、ポルトガル語、韓国語、中国語、トルコ語、ロシア語、タイ語、オランダ語、ルーマニア語、ハンガリー語など、複数の言語・ロケールが列挙されています。記事で書く場合は、「15言語対応。詳細ページでは複数ロケールが掲載されている」と表現すると安全です。
MAI-Voice-2では、感情タグによる制御、5〜60秒の参照音声によるzero-shot voice prompting、長尺コンテンツでのspeaker identityの安定性、Hindi-EnglishやSpanish-Englishのようなコードスイッチングも説明されています。
もう一つ大切なのが、同意と安全性です。公式ページでは、productionで合成できるのは許可されたライセンス済み音声に限られ、無許可のvoice cloningはできないと説明されています。音声合成は便利な一方で悪用リスクも大きいため、ここは記事でも必ず触れておきたいポイントです。
🔷MAI PlaygroundとMicrosoft Foundryで何が試せるのか
今回の発表を見て、「どこから触れるの?」と気になる方も多いと思います。そこで確認したいのが、MAI PlaygroundとMicrosoft Foundryです。
MAI Playgroundはこちらです。
確認時点では、MAI Playgroundはlimited previewとして表示されていました。画面上には、MAI-Thinking-1(Coming soon)、MAI-Image-2.5、MAI-Transcribe-1.5、MAI-Voice-2、DuoAI Betaが並んでいます。
https://playground.microsoft.ai/chat では、静的に取得できる内容として、MAI-Image-2.5-Flashの「Generate and edit images faster」という紹介が中心でした。サンプルとして、次のような画像プロンプト名も表示されています。
- bold chip packaging
- country roadside break
- surreal horse wetlands
- overgrown city garden
- green ice cream tub
- playground shadows
- retro run club
- laundry in sunlight
- cafe conversation
また、Playground内の「Explore Models on Foundry」は、次の短縮リンクになっていました。
https://aka.ms/mai-image-2.5-flash-foundrycard
この短縮リンクは、MAI-Image-2.5-FlashのMicrosoft Foundryモデルカードへ解決されます。
https://ai.azure.com/explore/models/MAI-Image-2.5-Flash/version/2026-06-02/registry/azure-mai?tid=72f988bf-86f1-41af-91ab-2d7cd011db47
💡Tips:PlaygroundとFoundryの違い
▸MAI Playground
Playgroundは、モデルの体験や実験に近い入口です。新しいモデルがどんな動きをするのか、どのようなサンプルがあるのかを確認するのに向いています。ただしlimited previewなので、利用できるモデルや画面表示は変わる可能性があります。
▸Microsoft Foundry
Foundryは、開発者や企業がモデルを選び、デプロイし、アプリケーションに組み込むための基盤です。モデルのバージョン、入力・出力タイプ、ライフサイクル、価格、ドキュメントなどを確認できます。
🔷Frontier Tuningと「hill-climbing machine」が示す企業向けAI戦略
今回の発表で、モデル一覧と同じくらい重要なのが、Microsoft AIの開発思想です。
発表本文では「hill-climbing machine」という表現が使われています。直訳すると「山登りする機械」ですが、ここではAIモデルを継続的に改善していくための組織・仕組みを指しています。
山の頂上を目指して一歩ずつ登るように、より良いデータ、より良い評価、より多い計算資源、より強いインフラを使って、モデルを反復的に改善していく考え方です。
Microsoft AIは、第三者モデルからのdistillationではなく、クリーンで適切にライセンスされたデータ、自社インフラ、自社評価基盤を強調しています。これは「モデルを作れる」だけでなく、「モデルを継続的に改善し、制御できる」ことを見せるメッセージでもあります。
▸Frontier Tuningとは
Frontier Tuningは、企業ごとの仕事のやり方にAIを合わせるための仕組みです。
Microsoft 365 Developer Blogでは、Frontier Tuningは企業のデータ、業務プロセス、ツール利用、評価シグナルをReinforcement Learning Environment(RLE)内で使い、企業ごとに適応したモデル、スキル、実行ハーネスを作る仕組みとして説明されています。
たとえば、同じ「資料を作る」仕事でも、会社によって使う言葉、承認フロー、参照すべき社内文書、守るべきルールは違います。Frontier Tuningでは、そうした企業内の知識や作業手順を安全な学習環境に入れ、AIがその会社らしい仕事の進め方を学ぶ、というイメージです。
提供状況としては、Private PreviewとしてForward Deployed Engineers経由で提供され、今後Copilot StudioやMicrosoft Foundryでの提供が予定されていると説明されています。
▸Mayo Clinicとの医療AI共同開発
発表では、MicrosoftとMayo Clinicが医療向けfrontier AI modelを共同開発することも示されました。
このモデルは、Mayo Clinicの臨床知見、非識別化された臨床データ、長期的な医療インサイトと、Microsoftの基盤AIを組み合わせるものです。まずはMayo Clinic自身の環境で展開され、検証後にAzure Foundry経由で他組織に提供する計画と説明されています。
ここで注目したいのは、モデルの所有者がMayo Clinicであると明記されている点です。医療AIでは、精度だけでなく、患者データ、所有権、安全性、責任ある運用が非常に重要になります。Microsoft AIの発表は、こうした高感度な領域にも自社モデルと企業・組織別チューニングを展開していく方向性を示していると見られます。
❓注意点
▸MAI Playgroundはlimited preview
Playgroundは実験的な入口です。将来的にモデル一覧や利用可否が変わる可能性があります。
▸MAI-Thinking-1はまだpublic preview予定
確認時点では、MAI-Thinking-1はFoundry private previewで、MAI Playgroundでのpublic previewはcoming soonです。
✅まとめ:MAIモデル発表はMicrosoftのAI戦略をどう変えるのか
この記事では、Microsoft AIが発表した7つの新MAIモデルと、MAI Playground、Microsoft Foundry、Frontier Tuningの位置づけを整理しました。
今回の発表で押さえておきたいポイントは次の通りです。
- Microsoft AIは、推論、コーディング、画像、文字起こし、音声合成にまたがる7つのMAIモデルを発表した
- MAI-Code-1-FlashはGitHub CopilotやVS Codeとの統合が重要
- MAI-Image-2.5 / Flashは、画像生成だけでなく画像編集やPowerPoint、OneDriveとの連携も注目点
- MAI-Transcribe-1.5は43言語対応とキーワードバイアスが実務向け
- MAI-Voice-2は自然な音声合成に加えて、同意ガードレールも重要
- MAI Playgroundはlimited previewの体験入口、Microsoft Foundryは開発者・企業向けのモデル利用基盤
- Frontier Tuningは、企業ごとのデータや業務プロセスにAIを適応させるための重要な仕組み
- Mayo Clinicとの共同開発は、医療のような高感度領域でのAI活用を考える上で重要な事例
個人的に今回の発表で一番大きいと感じるのは、Microsoft AIが「モデル単体の性能」だけでなく、「モデルをどの製品に組み込み、企業ごとにどう適応させ、継続的にどう改善するか」までまとめて見せている点です。
今後は、MAI-Thinking-1のpublic preview、MAI-Voice-2-Flashの提供時期、Frontier TuningのCopilot Studio / Microsoft Foundry対応、そして実際の企業導入事例が増えてくるかを追うと、MicrosoftのAI戦略がより見えやすくなりそうです。
参考リンクを最後にまとめます。
- Microsoft AI公式発表
- MAI Playground
- MAI-Thinking-1
- MAI-Code-1-Flash
- MAI-Image-2.5
- MAI-Transcribe-1.5
- MAI-Voice-2
- Frontier Tuning
- MAI-Image-2.5-Flash Foundryカタログ
※お役に立てたらストック、いいねをよろしくお願いします!!