GPT Image 2 を実際に使ってテキスト描画の精度を検証してみた

Posted at 2026-04-28

はじめに

2026年4月21日、OpenAI が新しい画像生成モデル「GPT Image 2」（ChatGPT Images 2.0）を公開しました。前モデル gpt-image-1 / 1.5 からの大きな進化点は、Oシリーズの推論能力を画像生成に統合した点です。生成前にモデルが構図やレイアウトを「考える」仕組みが入り、複雑なシーンでも一発で意図通りの画像が出やすくなっています。

この記事では、GPT Image 2 の主な機能をまとめつつ、特にテキスト描画の精度を実際に試して検証した結果を共有します。

GPT Image 2 の主な特徴

推論付き画像生成（Thinking モード）

GPT Image 2 は、画像を描く前にプロンプトの意図を解釈し、レイアウトや要素配置を計画してから生成に入ります。ChatGPT の Plus / Pro / Business プランで Thinking モードが利用可能で、1つのプロンプトから最大8枚の一貫性のある画像を生成できます。

Thinking モードが特に効くケース：

複数の人物が写る構図
UIモックアップやインフォグラフィック
テキスト+イラストの混在レイアウト

テキスト描画精度の大幅向上

AI 画像生成で長年の課題だった「画像内のテキストが化ける」問題が大きく改善されました。看板、ロゴ、ポスター内の文字列がスペルミスなしで描画されるケースがかなり増えています。

日本語・中国語・韓国語などの CJK 文字についても、字形やストロークの精度が上がっています。

2K 解像度ネイティブ出力

デフォルトで 2048px までの出力に対応。それ以上のサイズが必要な場合は、後処理のアップスケーリングで 4K 相当にできます。

画像編集の一体化

新規生成だけでなく、既存画像のインペインティング（部分修正）、アウトペインティング（拡張）、背景置換にも対応しています。マスクやレイヤーを手動で指定しなくても、自然言語で「背景を夕焼けに変えて」のように指示するだけで編集が実行されます。

実際に試した：テキスト描画の検証

GPT Image 2 のテキスト描画がどれほど実用的かを、いくつかのパターンで試しました。

テスト1：英語のポスター

プロンプト：

A minimalist event poster with the text "AI Developer Conference 2026" 
at the top, date "June 15, 2026" below, venue "Tokyo International Forum"
at the bottom. Clean sans-serif typography on a dark navy background.

結果：テキストの綴りミスなし。フォントのバランスも自然で、そのまま使えるレベルでした。

テスト2：日本語を含むデザイン

プロンプト：

カフェのメニューボード。上部に「本日のおすすめ」、
その下に「抹茶ラテ ¥580」「ほうじ茶フロート ¥620」と表示。
チョークアート風のデザイン。

結果：日本語の文字は概ね正確でしたが、「ほうじ茶」の「ほ」が若干崩れるケースがありました。2〜3回の再生成で修正できたので、実用の範囲内です。

テスト3：UI モックアップ

プロンプト：

A mobile app login screen. Header says "Welcome back", 
email input field, password input field, 
a blue "Sign In" button, and a "Forgot password?" link below.
Material Design style.

結果：ボタンのテキスト、ラベル、リンク文字列がすべて正確に描画されました。プロトタイプの初期段階で使うには十分な品質です。

GPT Image 2 を使う方法

ChatGPT から使う

最もシンプルな方法は ChatGPT にログインして画像生成を依頼することです。無料ユーザーでも基本的な画像生成は利用できますが、Thinking モードによる高品質な生成は Plus 以上のプランが必要です。

会話の流れの中で画像を生成・編集できるので、「もう少し明るくして」「テキストのフォントサイズを大きくして」といった反復的な修正がやりやすいのが利点です。

API から使う

開発者向けには、OpenAI API の v1/images/generations と v1/images/edits エンドポイントで GPT Image 2 を呼び出せます。モデル ID は gpt-image-2、スナップショット版は gpt-image-2-2026-04-21 です。

import openai

client = openai.OpenAI()

response = client.images.generate(
    model="gpt-image-2",
    prompt="A product photo of a ceramic coffee mug with 'Morning Ritual' text",
    size="1024x1024",
    quality="high"
)

image_url = response.data[0].url
print(image_url)

API の料金体系はトークンベースです。

種別	料金（100万トークンあたり）
画像入力	$8
画像入力（キャッシュ）	$2
画像出力	$30

サードパーティツールで使う

ChatGPT のサブスクリプションなしで GPT Image 2 を手軽に試したい場合は、サードパーティの画像生成サービスを利用する方法もあります。たとえば GPT Image 2 AI というサービスでは、ブラウザ上から GPT Image 2 で画像を生成でき、プロンプトのテンプレートやステップバイステップのガイドも用意されています。2K 出力に加えて 4K アップスケーリングにも対応しており、ウォーターマークなしで出力できます。

rate limit とレイテンシの注意点

API を使う場合、rate limit には注意が必要です。Tier 1 アカウントでは1分あたり5枚の制限があり、並列リクエストやリトライを考慮すると、バッチ処理にはやや窮屈です。

Thinking モードを有効にすると生成時間が長くなるため、用途に応じて ON/OFF を切り替えるのが現実的です。

# 使い分けの目安
# レイアウト重視（UIモック、インフォグラフィック）→ Thinking ON
# スピード重視（背景バリエーション大量生成）→ Thinking OFF

DALL-E 3 からの移行

DALL-E 2 と DALL-E 3 は 2026年5月12日に廃止予定です。現在 DALL-E 3 を使っているプロジェクトでは、モデル ID を gpt-image-2 に差し替えるだけで基本的に移行できます。ただし、出力サイズの指定方法やレスポンス形式に一部変更があるので、公式の API ドキュメントを確認してから切り替えるのがおすすめです。

知っておきたい制限事項

知識のカットオフ：モデルの学習データは 2025年12月まで。2026年以降の製品や出来事に関する画像は不正確になる可能性がある
ブランドロゴの再現性：特定のロゴを正確に再現するのはまだ苦手。複数回試行しても正確に出ない場合がある
最大解像度：1回の生成で 2048px が上限。それ以上は後処理でのアップスケーリングが必要

まとめ

GPT Image 2 は、テキスト描画の精度と推論による構図の安定性で大きく進化しています。ポスター、UIモックアップ、SNS 用ビジュアルなど、テキスト要素を含む画像生成の実用性が格段に上がりました。

使い方としては ChatGPT で会話形式で生成するのが最も手軽です。API での自動化や、GPT Image 2 AI のようなサードパーティサービスも選択肢としてあるので、用途に応じて使い分けると良いでしょう。

DALL-E 3 の廃止も控えているので、画像生成 API を使っている開発者は早めに検証しておくのが得策です。

検証環境

モデル: gpt-image-2 (snapshot: gpt-image-2-2026-04-21)
検証日: 2026年4月
API: OpenAI v1/images/generations

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up