MAI-Image-2入門 — MicrosoftがArena.ai 3位に躍進した画像生成モデルの全貌

Last updated at 2026-03-21Posted at 2026-03-21

はじめに

2026年3月19日、Microsoft AI Superintelligence チームが自社開発の画像生成モデル MAI-Image-2 を公開した。Arena.ai のテキスト画像生成リーダーボードで 3位にランクインし、前モデル MAI-Image-1 の9位から大幅に順位を上げている。

この記事では、MAI-Image-2 の技術的特徴、利用方法、競合モデルとの違い、そして開発者向け API の展望をまとめる。

この記事で学べること

MAI-Image-2 の主要な技術的特徴とベンチマーク上の位置づけ
テキスト描画性能が従来比で大幅に改善された背景
MAI Playground・Copilot・Microsoft Foundry での利用方法
GPT Image 1.5 や Nano Banana 2 との比較と使い分け
現時点の制約事項と今後の展望

対象読者

AI 画像生成 API の導入を検討しているエンジニア
Microsoft エコシステムで画像生成機能を組み込みたい開発者
画像生成モデルの最新動向を追いたい方

TL;DR

MAI-Image-2 は Arena.ai リーダーボードで 3位（1位: GPT Image 1.5、2位: Nano Banana 2）
テキスト描画性能が前モデル比 115ポイント向上 し、ポスター・インフォグラフィック生成に強い
MAI Playground（playground.microsoft.ai）で無料で試用可能
API は一部エンタープライズ顧客に提供中。Microsoft Foundry で開発者向け一般提供を予定
現時点では 1:1 アスペクト比のみ 、テキスト→画像の単方向生成に限定

MAI-Image-2 とは — Microsoft AI Superintelligence チームの成果物

MAI-Image-2 は、2025年11月に Mustafa Suleyman が設立した Microsoft AI Superintelligence（MSI）チーム が開発したテキスト→画像生成モデルである。写真家・デザイナー・ビジュアルストーリーテラーとの協力のもと開発されたと公式ブログで述べられている。

開発の背景

Microsoft はこれまで画像生成分野で OpenAI の DALL-E シリーズに依存してきた。DALL-E 3 は2026年3月4日に廃止され、後継の GPT Image 1.5 が Microsoft Foundry で利用可能になっている。MAI-Image-2 の登場は、Microsoft が 自社技術による画像生成能力 を確立する戦略的な一歩と位置づけられる。

Arena.ai リーダーボードでの位置づけ

Arena.ai はユーザーによるブラインド A/B 評価でモデルをランク付けする。MAI-Image-2 は公開直後に 3位にランクインした。

順位	モデル	提供元
1位	GPT Image 1.5	OpenAI
2位	Nano Banana 2	Google
3位	MAI-Image-2	Microsoft
参考: 9位	MAI-Image-1	Microsoft

前モデル MAI-Image-1 が9位だったことを考えると、1世代で6ランクの向上を達成している。

3つの主要な技術的改善

MAI-Image-2 の公式発表では、以下の3領域での改善が強調されている。

1. フォトリアリズムの向上

自然光の表現、肌色の正確性、環境描写のリアリティが大幅に改善されている。公式ブログでは「ポストプロダクションでの修正時間を削減し、制作に集中できる」と説明されている。シネマティックな構図や超現実的な概念の描写にも対応する。

2. テキスト描画性能

前モデル比で 115ポイントの改善 を達成した。ポスター、インフォグラフィック、スライド、図表内のテキスト生成において、一貫した品質を提供する。画像内テキスト生成は多くの競合モデルが苦手とする領域であり、MAI-Image-2 の差別化要因となっている。

複数のレビューで「予想以上に一貫したタイポグラフィ品質」と評価されており、看板・ポスター・インフォグラフィック内の文字を正確に描画できる点が特徴である。ただし、中国語の漢字など非ラテン文字の精度は完全ではないとの報告もある。

3. 複雑シーン構成

超現実的なコンセプト、装飾的な構図、野心的な世界観の描写において、空間推論の精度が向上している。物体の比率やポジショニングが正確で、論理的に矛盾するシーンでも破綻しにくい。

利用方法

MAI-Image-2 は現時点で3つの経路で利用できる。

MAI Playground（一般ユーザー向け）

playground.microsoft.ai にアクセスすることで、ブラウザ上で MAI-Image-2 を無料で試用できる。Microsoft アカウントでサインインし、テキストプロンプトを入力するだけで画像が生成される。

現時点の利用制限は以下のとおりである。

項目	制限
生成間隔	30秒のクールダウン
1日あたりの生成数	15枚（超過時は24時間ロックアウト）
出力解像度	1:1（正方形）のみ
対応言語	英語プロンプト推奨

MAI Playground は一部の地域では利用できない場合がある。

Copilot・Bing Image Creator（段階的展開中）

Copilot および Bing Image Creator への統合が進行中である。公式発表時点ではロールアウトの途中であり、全ユーザーへの提供完了時期は明示されていない。

Microsoft Foundry API（開発者向け・今後提供）

エンタープライズ顧客（WPP など）には API アクセスが先行提供されている。一般開発者向けには Microsoft Foundry を通じて API が提供される予定だが、具体的な提供開始日や料金体系は2026年3月21日時点で公表されていない。

# Microsoft Foundry での画像生成 API の概念的な利用イメージ
# （正式な API 仕様は未公開。以下は Microsoft Foundry の既存パターンに基づく参考例）

# Microsoft Foundry では現在、GPT Image 1.5 が GA で利用可能
# MAI-Image-2 の API も同様のインターフェースで提供される見込み

競合モデルとの比較

MAI-Image-2 を Arena.ai の上位モデルおよび主要な競合モデルと比較する。

機能比較

機能	MAI-Image-2	GPT Image 1.5	Nano Banana 2
Arena.ai 順位	3位	1位	2位
テキスト→画像	✅	✅	✅
画像→画像	❌	✅	✅
インペインティング	❌	✅	✅
アウトペインティング	❌	✅	❌
カスタムアスペクト比	❌（1:1のみ）	✅（最大1024×1536）	✅
テキスト描画	◎（115pt向上）	○	○
API 提供	一部顧客のみ	GA（Microsoft Foundry）	Gemini API
コンテンツフィルタ	非常に厳格	厳格	標準

使い分けの指針

MAI-Image-2 が適するケース:

テキストを含むインフォグラフィックやポスターの生成
Microsoft エコシステム内での画像生成（Copilot 連携）
フォトリアリスティックな画像で自然光表現を重視する場合

GPT Image 1.5 が適するケース:

画像編集（インペインティング・アウトペインティング）が必要な場合
カスタムアスペクト比での出力が必要な場合
本番 API が即座に必要な場合（GA 済み）

Nano Banana 2 が適するケース:

Google Cloud / Gemini API エコシステムで開発している場合
画像→画像変換が必要な場合

現時点の制約事項

MAI-Image-2 は公開初期段階にあり、以下の制約が存在する。

機能面の制約

1:1 アスペクト比のみ: 横長・縦長の画像は生成できない
テキスト→画像のみ: 画像→画像変換、インペインティング、アウトペインティング、リファレンス画像の入力は非対応
コンテンツフィルタが非常に厳格: Google Imagen や DALL-E よりも厳しいモデレーションが適用されるとの報告がある

透明性の課題

アーキテクチャの詳細（モデル構造、パラメータ数）は非公開
学習データセットの情報は非公開
具体的な Elo レーティングのスコアは非公開
API の料金体系は未発表
セーフティ・コンテンツモデレーションの技術的仕様書は未公開

Microsoft の画像生成戦略

MAI-Image-2 のリリースは、Microsoft の AI 画像生成戦略における重要な転換点を示している。

OpenAI 依存からの脱却

Microsoft Foundry では現在、以下の画像生成モデルが利用可能である。

モデル	提供元	ステータス
GPT Image 1.5	OpenAI	GA
FLUX.2 Pro	Black Forest Labs	パブリックプレビュー
FLUX.2 Flex	Black Forest Labs	パブリックプレビュー
DALL-E 3	OpenAI	2026年3月4日廃止
MAI-Image-2	Microsoft（自社）	一部顧客向け先行提供

DALL-E 3 の廃止と MAI-Image-2 の登場は、Microsoft が OpenAI 製モデルへの依存を減らしつつ、自社モデルのラインナップを強化していることを示唆している。

Copilot エコシステムとの統合

MAI-Image-2 は Copilot および Bing Image Creator への統合が進行中である。Microsoft 365 Copilot のユーザーにとっては、追加コストなしで高品質な画像生成機能が利用可能になる見込みである。

まとめ

MAI-Image-2 は、Microsoft AI Superintelligence チームが開発した自社製画像生成モデルとして、Arena.ai 3位という実力を示した。テキスト描画の115ポイント改善やフォトリアリズムの向上など技術的な進歩は明確である一方、1:1 アスペクト比のみ・テキスト→画像限定という機能面の制約も残る。

開発者にとっては、Microsoft Foundry での一般提供が開始されるタイミングが実質的な判断ポイントとなる。API 料金・仕様の公開を待ちつつ、MAI Playground で品質を確認しておくことを推奨する。

今後の注目ポイント

Microsoft Foundry での API 一般提供開始時期と料金体系
カスタムアスペクト比や画像→画像変換への対応
Copilot・Bing Image Creator での全面展開の完了時期
Arena.ai ランキングの推移（上位2モデルとの差）

参考リンク

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up