はじめに
2026年4月21日、OpenAIはGPT Image 2(gpt-image-2)を正式リリースしました。ChatGPT Images 2.0としても展開されるこのモデルは、DALL-E 3の後継として位置づけられており、DALL-E 2とDALL-E 3は2026年5月12日をもって非推奨となります1。
本記事では、公式ドキュメントに基づいてGPT Image 2の主要機能、Python APIの実装方法、DALL-E 3からの移行手順を解説します。
この記事で学べること
- GPT Image 2の主要機能とDALL-E 3との差異
- Python SDKを使ったAPIの基本的な使い方
- Thinking modeの活用方法
- DALL-E 3から移行するための具体的な手順
- 品質レベルと価格の選び方
対象読者
- OpenAI APIで画像生成を実装しているエンジニア
- DALL-E 3をすでに使用しており移行を検討している方
- GPT Image 2の機能を把握したい方
前提環境
- Python 3.10以上
- openai Python SDK(最新版)
- OpenAI API キー
TL;DR
- GPT Image 2はDALL-E 3の後継モデルで、2026年5月12日にDALL-E 3は廃止
- テキスト描画精度が99%以上に向上(OpenAI公式発表2)
- Thinking mode(推論ベース生成)で複雑なプロンプトに対応
- 単一APIコールでシリーズ画像を**最大10枚(n=1〜10)**まで一貫して生成可能
- 移行はモデル指定を
dall-e-3→gpt-image-2に変更するだけ
GPT Image 2 の主要機能
テキスト精度の革命
テキスト描画精度が99%以上に大幅に改善されました2(DALL-E 3では第三者比較で約60%程度とされていました)。UIのボタンラベル、看板の文字、CJK文字(日本語・中国語・韓国語)、ポスターコピーなど、従来は不正確になりやすかったテキストが正確に描画されます。
特に日本語を含むプロンプトでの画像生成や、UIモックアップ・スライド素材の生成において大きな恩恵があります。
Thinking mode(推論ベース生成)
GPT Image 2はO系列の推論エンジンをベースに設計されており、描画前にプランニングと自己修正を行う初の画像生成モデルです2。複雑なプロンプトや精密なテキストレイアウトが要求される場合に、通常モードより高品質な出力が期待できます。
Thinking modeは通常モードより処理時間が大幅に増加します(第三者計測では通常3〜5秒に対してThinking modeは10〜30秒程度)。また入力トークンコストが増加するため、用途に応じて quality="high" との使い分けを検討してください。
マルチ画像シリーズ生成
n パラメータ(1〜10)を指定することで、単一のAPIコールで最大10枚の一貫したキャラクターやシーンの画像を生成できます3。ストーリーボード、プレゼンテーション資料、ECサイトの商品画像シリーズなど、統一感が必要な複数画像の生成に活用できます。
高解像度とフレキシブルなアスペクト比
| 仕様 | GPT Image 2 | DALL-E 3 |
|---|---|---|
| 最大解像度 | 3840px(長辺) | 1024px |
| ネイティブ解像度 | 2048×2048 | 1024×1024 |
| 対応アスペクト比 | 7種類(1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3) | 3種類 |
APIの使い方
基本的な画像生成
from openai import OpenAI
import base64
client = OpenAI()
result = client.images.generate(
model="gpt-image-2",
prompt="白い背景に置かれたミニマルなデスクライトの製品写真風イラスト",
size="1024x1024",
quality="medium",
)
image_base64 = result.data[0].b64_json
image_bytes = base64.b64decode(image_base64)
with open("output.png", "wb") as f:
f.write(image_bytes)
デフォルトの返却形式は b64_json(Base64エンコードされたバイナリ)です。
Thinking modeでの生成
GPT Image 2にはThinking mode(推論ベース生成)が内蔵されており、複雑なプロンプトに対してより精密な出力が得られます。現時点の公式APIでは quality="high" を使用することでThinking modeが活用される設計になっています。
result = client.images.generate(
model="gpt-image-2",
prompt="日本語のラベルが書かれたダッシュボードのモックアップ。左側にグラフ、右側に統計数値を表示",
size="1536x1024",
quality="high",
)
複数画像シリーズの生成
n パラメータで複数枚を指定すると(以下は n=8 の例)、一貫したキャラクターやシーンの画像を生成できます。
result = client.images.generate(
model="gpt-image-2",
prompt="青いスーツを着たロボットキャラクター。様々なポーズ",
size="1024x1024",
quality="medium",
n=8,
)
for i, image_data in enumerate(result.data):
image_bytes = base64.b64decode(image_data.b64_json)
with open(f"robot_{i:02d}.png", "wb") as f:
f.write(image_bytes)
画像編集
既存の画像に対して部分的な編集(インペインティング)が可能です。
with open("original.png", "rb") as image_file:
result = client.images.edit(
model="gpt-image-2",
image=image_file,
prompt="背景を青空に変更し、他の部分はそのまま",
size="1024x1024",
)
WebP形式での出力(ファイルサイズ削減)
result = client.images.generate(
model="gpt-image-2",
prompt="プロフェッショナルなプレゼンテーション用の背景画像",
size="1920x1080",
quality="medium",
output_format="webp",
output_compression=85,
)
output_format="webp" と output_compression(0〜100)を組み合わせることでファイルサイズを最適化できます。
価格体系
GPT Image 2の価格は品質レベルとサイズに応じて変動します3。
| 品質 | 1024×1024 | 1024×1536 / 1536×1024 |
|---|---|---|
| Low | $0.006 | $0.005 |
| Medium | $0.053 | $0.041 |
| High | $0.211 | $0.165 |
品質レベルの選び方
| 用途 | 推奨品質 | 理由 |
|---|---|---|
| プロトタイプ・確認用 | Low | 高速かつ低コスト |
| 一般的なコンテンツ生成 | Medium | コストとクオリティのバランス |
| 商用コンテンツ・印刷物 | High | 最高品質 |
| 複雑なレイアウト・テキスト | High + Thinking | 精密な表現が必要な場合 |
Thinking modeを有効にすると入力トークンが2.5倍に乗算されるため、Highクオリティ + Thinking modeを多用する場合はコスト見積もりを事前に行うことを推奨します。
DALL-E 3からの移行ガイド
廃止スケジュール
- 2026年4月21日: GPT Image 2 リリース
- 2026年5月12日: DALL-E 2 / DALL-E 3 廃止(利用不可)4
5月12日以前にAPI統合を更新する必要があります。
移行手順
1. モデル指定の変更
# 変更前
result = client.images.generate(
model="dall-e-3",
prompt="...",
size="1024x1024",
quality="hd",
)
# 変更後
result = client.images.generate(
model="gpt-image-2",
prompt="...",
size="1024x1024",
quality="high",
)
quality="hd" は GPT Image 2 では quality="high" に対応します。
2. レスポンス形式の確認
DALL-E 3では response_format="url" が利用できましたが、GPT Image 2では b64_json がデフォルトです。URL形式を使用している場合はBase64デコードへの変更が必要です。
# DALL-E 3 (URL形式)
result = client.images.generate(
model="dall-e-3",
prompt="...",
response_format="url", # URL返却
)
image_url = result.data[0].url
# GPT Image 2 (b64_json形式)
result = client.images.generate(
model="gpt-image-2",
prompt="...",
)
image_bytes = base64.b64decode(result.data[0].b64_json)
3. サイズパラメータの確認
DALL-E 3でサポートされていたサイズはGPT Image 2でも引き続き使用できます(1024x1024、1792x1024、1024x1792)。新しいサイズ(2048x2048など)を活用したい場合は追加変更が必要です。
スナップショット指定
gpt-image-2 はエイリアスです。再現性が重要なプロダクション環境では、スナップショット ID(例: gpt-image-2-2026-04-21)を明示することで、モデルのアップデートによる出力の変化を防げます3。
result = client.images.generate(
model="gpt-image-2-2026-04-21", # スナップショット指定で出力を固定
prompt="...",
)
注意点
ストリーミング非対応
GPT Image 2は現時点でストリーミング出力に対応していません。生成完了まで待機する設計が必要です。
ファインチューニング非対応
モデルのファインチューニングはサポートされていません。スタイルや一貫性の維持には、詳細なプロンプトエンジニアリングや n パラメータでの複数枚生成を活用する方法が推奨されます。
コンテンツモデレーション
moderation パラメータで auto(デフォルト)または low を指定できます。low はコンテンツフィルターの厳密度を下げますが、利用規約の範囲内での使用が必要です。
まとめ
GPT Image 2は、テキスト精度の大幅な向上、Thinking modeによる推論ベース生成、マルチ画像シリーズ生成(n=1〜10)など、DALL-E 3から複数の改善がもたらされたモデルです。
重要な日程: 2026年5月12日にDALL-E 2/3が廃止されるため、現在DALL-E 3 APIを使用しているプロジェクトは今すぐ移行対応が必要です。移行自体はモデル名の変更とレスポンス形式の調整で対応できるケースがほとんどです。
- テキスト精度が向上したことでUIモックアップや日本語テキスト含む画像生成が実用的になった
- Thinking modeは複雑なプロンプトに有効だがコスト増加に注意
- nパラメータ(最大10)で一貫したシリーズ画像を生成できるため、EC商品ページや教育コンテンツ制作に活用できる
- 移行の締め切りは2026年5月12日(DALL-E 3廃止)
参考リンク
- Introducing ChatGPT Images 2.0 | OpenAI — はじめに・TL;DRセクションで引用
- Image generation | OpenAI API Docs — APIの使い方・価格体系セクションで引用
- GPT Image 2 Model | OpenAI API — 機能仕様セクションで引用
- Deprecations | OpenAI API — DALL-E廃止スケジュール確認
- Introducing gpt-image-2 - OpenAI Developer Community — リリース詳細
-
Deprecations | OpenAI API(OpenAI — dall-e-2 / dall-e-3 の廃止日 2026-05-12 を確認) ↩
-
Introducing ChatGPT Images 2.0(OpenAI, 2026-04-21) ↩ ↩2 ↩3
-
Image generation | OpenAI API Docs(OpenAI) ↩ ↩2 ↩3
-
GPT Image 2: Release Date, Features, and Everything You Need to Know(AI/ML API Blog, 2026) ↩


