GPT Image 2入門 — DALL-E 3後継モデルのAPI実装と移行ガイド

Last updated at 2026-06-16Posted at 2026-06-04

はじめに

2026年4月21日、OpenAIは GPT Image 2（gpt-image-2）を正式リリースしました。ChatGPT Images 2.0としても展開されるこのモデルは、DALL-E 3の後継として位置づけられており、DALL-E 2とDALL-E 3は 2026年5月12日をもって非推奨 となります¹。

本記事では、公式ドキュメントに基づいてGPT Image 2の主要機能、Python APIの実装方法、DALL-E 3からの移行手順を解説します。

この記事で学べること

GPT Image 2の主要機能とDALL-E 3との差異
Python SDKを使ったAPIの基本的な使い方
Thinking modeの活用方法
DALL-E 3から移行するための具体的な手順
品質レベルと価格の選び方

対象読者

OpenAI APIで画像生成を実装しているエンジニア
DALL-E 3をすでに使用しており移行を検討している方
GPT Image 2の機能を把握したい方

前提環境

Python 3.10以上
openai Python SDK（最新版）
OpenAI API キー

TL;DR

GPT Image 2はDALL-E 3の後継モデルで、2026年5月12日 にDALL-E 3は廃止
テキスト描画精度が 99%以上 に向上（OpenAI公式発表²）
Thinking mode（推論ベース生成）で複雑なプロンプトに対応
単一APIコールでシリーズ画像を 最大10枚（n=1〜10） まで一貫して生成可能
移行はモデル指定を dall-e-3 → gpt-image-2 に変更するだけ

GPT Image 2 の主要機能

テキスト精度の革命

テキスト描画精度が 99%以上 に大幅に改善されました²（DALL-E 3では第三者比較で約60%程度とされていました）。UIのボタンラベル、看板の文字、CJK文字（日本語・中国語・韓国語）、ポスターコピーなど、従来は不正確になりやすかったテキストが正確に描画されます。

特に日本語を含むプロンプトでの画像生成や、UIモックアップ・スライド素材の生成において大きな恩恵があります。

Thinking mode（推論ベース生成）

GPT Image 2はO系列の推論エンジンをベースに設計されており、描画前にプランニングと自己修正 を行う初の画像生成モデルです²。複雑なプロンプトや精密なテキストレイアウトが要求される場合に、通常モードより高品質な出力が期待できます。

Thinking modeは通常モードより処理時間が大幅に増加します（第三者計測では通常3〜5秒に対してThinking modeは10〜30秒程度）。また入力トークンコストが増加するため、用途に応じて quality="high" との使い分けを検討してください。

マルチ画像シリーズ生成

n パラメータ（1〜10）を指定することで、単一のAPIコールで 最大10枚の一貫したキャラクターやシーンの画像 を生成できます³。ストーリーボード、プレゼンテーション資料、ECサイトの商品画像シリーズなど、統一感が必要な複数画像の生成に活用できます。

高解像度とフレキシブルなアスペクト比

仕様	GPT Image 2	DALL-E 3
最大解像度	3840px（長辺）	1024px
ネイティブ解像度	2048×2048	1024×1024
対応アスペクト比	7種類（1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3）	3種類

APIの使い方

基本的な画像生成

from openai import OpenAI
import base64

client = OpenAI()

result = client.images.generate(
    model="gpt-image-2",
    prompt="白い背景に置かれたミニマルなデスクライトの製品写真風イラスト",
    size="1024x1024",
    quality="medium",
)

image_base64 = result.data[0].b64_json
image_bytes = base64.b64decode(image_base64)

with open("output.png", "wb") as f:
    f.write(image_bytes)

デフォルトの返却形式は b64_json（Base64エンコードされたバイナリ）です。

Thinking modeでの生成

GPT Image 2にはThinking mode（推論ベース生成）が内蔵されており、複雑なプロンプトに対してより精密な出力が得られます。現時点の公式APIでは quality="high" を使用することでThinking modeが活用される設計になっています。

result = client.images.generate(
    model="gpt-image-2",
    prompt="日本語のラベルが書かれたダッシュボードのモックアップ。左側にグラフ、右側に統計数値を表示",
    size="1536x1024",
    quality="high",
)

複数画像シリーズの生成

n パラメータで複数枚を指定すると（以下は n=8 の例）、一貫したキャラクターやシーンの画像を生成できます。

result = client.images.generate(
    model="gpt-image-2",
    prompt="青いスーツを着たロボットキャラクター。様々なポーズ",
    size="1024x1024",
    quality="medium",
    n=8,
)

for i, image_data in enumerate(result.data):
    image_bytes = base64.b64decode(image_data.b64_json)
    with open(f"robot_{i:02d}.png", "wb") as f:
        f.write(image_bytes)

画像編集

既存の画像に対して部分的な編集（インペインティング）が可能です。

with open("original.png", "rb") as image_file:
    result = client.images.edit(
        model="gpt-image-2",
        image=image_file,
        prompt="背景を青空に変更し、他の部分はそのまま",
        size="1024x1024",
    )

WebP形式での出力（ファイルサイズ削減）

result = client.images.generate(
    model="gpt-image-2",
    prompt="プロフェッショナルなプレゼンテーション用の背景画像",
    size="1920x1080",
    quality="medium",
    output_format="webp",
    output_compression=85,
)

output_format="webp" と output_compression（0〜100）を組み合わせることでファイルサイズを最適化できます。

価格体系

GPT Image 2の価格は品質レベルとサイズに応じて変動します³。

品質	1024×1024	1024×1536 / 1536×1024
Low	$0.006	$0.005
Medium	$0.053	$0.041
High	$0.211	$0.165

品質レベルの選び方

用途	推奨品質	理由
プロトタイプ・確認用	Low	高速かつ低コスト
一般的なコンテンツ生成	Medium	コストとクオリティのバランス
商用コンテンツ・印刷物	High	最高品質
複雑なレイアウト・テキスト	High + Thinking	精密な表現が必要な場合

Thinking modeを有効にすると入力トークンが2.5倍に乗算されるため、Highクオリティ + Thinking modeを多用する場合はコスト見積もりを事前に行うことを推奨します。

DALL-E 3からの移行ガイド

廃止スケジュール

2026年4月21日: GPT Image 2 リリース
2026年5月12日: DALL-E 2 / DALL-E 3 廃止（利用不可）⁴

5月12日以前にAPI統合を更新する必要があります。

移行手順

1. モデル指定の変更

# 変更前
result = client.images.generate(
    model="dall-e-3",
    prompt="...",
    size="1024x1024",
    quality="hd",
)

# 変更後
result = client.images.generate(
    model="gpt-image-2",
    prompt="...",
    size="1024x1024",
    quality="high",
)

quality="hd" は GPT Image 2 では quality="high" に対応します。

2. レスポンス形式の確認

DALL-E 3では response_format="url" が利用できましたが、GPT Image 2では b64_json がデフォルト です。URL形式を使用している場合はBase64デコードへの変更が必要です。

# DALL-E 3 (URL形式)
result = client.images.generate(
    model="dall-e-3",
    prompt="...",
    response_format="url",  # URL返却
)
image_url = result.data[0].url

# GPT Image 2 (b64_json形式)
result = client.images.generate(
    model="gpt-image-2",
    prompt="...",
)
image_bytes = base64.b64decode(result.data[0].b64_json)

3. サイズパラメータの確認

DALL-E 3でサポートされていたサイズはGPT Image 2でも引き続き使用できます（1024x1024、1792x1024、1024x1792）。新しいサイズ（2048x2048など）を活用したい場合は追加変更が必要です。

スナップショット指定

gpt-image-2 はエイリアスです。再現性が重要なプロダクション環境では、スナップショット ID（例: gpt-image-2-2026-04-21）を明示することで、モデルのアップデートによる出力の変化を防げます³。

result = client.images.generate(
    model="gpt-image-2-2026-04-21",  # スナップショット指定で出力を固定
    prompt="...",
)

注意点

ストリーミング非対応

GPT Image 2は現時点でストリーミング出力に対応していません。生成完了まで待機する設計が必要です。

ファインチューニング非対応

モデルのファインチューニングはサポートされていません。スタイルや一貫性の維持には、詳細なプロンプトエンジニアリングや n パラメータでの複数枚生成を活用する方法が推奨されます。

コンテンツモデレーション

moderation パラメータで auto（デフォルト）または low を指定できます。low はコンテンツフィルターの厳密度を下げますが、利用規約の範囲内での使用が必要です。

まとめ

GPT Image 2は、テキスト精度の大幅な向上、Thinking modeによる推論ベース生成、マルチ画像シリーズ生成（n=1〜10）など、DALL-E 3から複数の改善がもたらされたモデルです。

重要な日程: 2026年5月12日 にDALL-E 2/3が廃止されるため、現在DALL-E 3 APIを使用しているプロジェクトは 今すぐ移行対応が必要 です。移行自体はモデル名の変更とレスポンス形式の調整で対応できるケースがほとんどです。

テキスト精度が向上したことでUIモックアップや日本語テキスト含む画像生成が実用的になった
Thinking modeは複雑なプロンプトに有効だがコスト増加に注意
nパラメータ（最大10）で一貫したシリーズ画像を生成できるため、EC商品ページや教育コンテンツ制作に活用できる
移行の締め切りは2026年5月12日（DALL-E 3廃止）

参考リンク

Introducing ChatGPT Images 2.0 | OpenAI — はじめに・TL;DRセクションで引用
Image generation | OpenAI API Docs — APIの使い方・価格体系セクションで引用
GPT Image 2 Model | OpenAI API — 機能仕様セクションで引用
Deprecations | OpenAI API — DALL-E廃止スケジュール確認
Introducing gpt-image-2 - OpenAI Developer Community — リリース詳細

Deprecations | OpenAI API（OpenAI — dall-e-2 / dall-e-3 の廃止日 2026-05-12 を確認） ↩
Introducing ChatGPT Images 2.0（OpenAI, 2026-04-21） ↩ ↩² ↩³
Image generation | OpenAI API Docs（OpenAI） ↩ ↩² ↩³
GPT Image 2: Release Date, Features, and Everything You Need to Know（AI/ML API Blog, 2026） ↩

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up