0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

GPT image 2.0 on Codex Part1 - ゼロから始めるAIシステム開発 #25

0
Posted at

Codexが超進化 - Codex for almost everything

Claude Codeが一年弱ほど遅れてエンジニア以外の界隈でも盛り上がっているが、それに対抗したのかどうなのか、26年4月にOpenAIのCodexアプリが劇的な進化を遂げた。「ほぼすべてに使えるCodex」のタイトルそのまま、画像生成、画面の理解・操作・記録にスケジュール実行、90以上の外部サービス連携などが可能になったらしい。残念ながらそのうちの多くはまだMac限定でうちのWindowsPCでは試せないのだが、画像生成モデルのGPT imageも2.0にバージョンアップされたので、今回は画像生成まわり、Codexアプリ上で画像生成を行うことの利点・ユースケースなどについて書いていこうと思う。

GPT image 2.0の実力

まずGPT image 2.0の実力について検証。昨年11~12月にNanobananaProとGPTimage1.5が発表されたときに比較記事を書いたのだが、そのときと全く同じプロンプトを使用して1.5からの進化を確認・NanobananaProとの比較をしてみる。

1.文字の正確性

プロンプト
白背景のシンプルなイベントポスターを作成。
見出し:寿司ラボ 2026
サブ:SUSHI LAB 2026 / TOKYO
日時:2026-01-18 (Sun) 13:00–18:00
注意書き(小さめ):※入場無料 / 事前登録推奨
すべての文字を「そのまま」正確に、読みやすく配置。装飾はミニマル。

image.png
1.5では「事前登録推奨」の部分が怪しかったが今回は完璧。

2.数や色などの属性の正確性

プロンプト
木製テーブルの上にマカロンをちょうど7個並べる。
色は「赤2、青2、黄2、緑1」。
上から見下ろす構図、影は自然、写真風。
8個以上や6個以下にしない。

image.png
これは1.5でも問題なかったが今回も完璧。

3.空間把握、レイアウトの正確性

プロンプト
16:9 の横長画像。
左上に赤い紙コップ、右上に青い紙コップ。
手前中央に黄色いレモン、奥中央に透明なガラス瓶。
すべて被らない。背景は淡いグレー。

image.png
こちらも1.5同様ばっちり。

4.条件が多数の場合の一致度

プロンプト
・夜の雨上がりの路地
・ネオンは紫とシアン
・反射した水たまり
・右手に透明傘の人物(顔は映さない)
・左奥に自転車
・看板に RAMEN(英字)
・もう一つの看板に ラーメン(日本語)
・画面下に余白を20%確保
・フィルム写真の粒状感
・16:9

image.png
「画面下の余白」だけ1.5同様再現できていない。他はばっちり。1.5では対応できてなかった16:9のアスペクト比にも対応。

5.常識チェック

プロンプト
日本のコンビニのレジ周りを写真風に。
レジ横におでん鍋、肉まんの保温ケース、公共料金の払込票、レジ袋。
不自然な文字は避け、雰囲気重視。

image.png
レジ内側から見たアングルになっている。前回よりもかなり自然。

6.キャラクタの一貫性

プロンプト(キャラ作成)
キャラクター設定:30代、短髪、丸メガネ、白いパーカー、青いスニーカー。
白背景のスタジオ撮影風、正面立ち、全身。

image.png

プロンプト(作成したキャラ画像を添付して)
この人物を、同じ服装・同じ顔の特徴のまま、右向きの横顔にして。白背景、全身。

image.png
ばっちり。1.5では白人男性になったが今回は日本人っぽい。プロンプトが日本語であることを考慮したのかな?

7.差分修正

変更前の画像はこちら
image.png

プロンプト
画像の構図は一切変えずに、空だけを夕焼けにして。建物や人物の色は変えない。

:dog: GPT Image 2.0
image.png
面白い結果になったので前回のも貼ってみる。

:banana: Nano Banana Pro
image.png
:dog: GPT Image 1.5
image.png
なんと前回のNanobananaProっぽい出力になっている。
前回はNanobananaProが「背景だけ変更」、GPT1.5が「全体の色味も変更」だったのに対して2.0はNanobananaProのほうに方針を寄せている。

8.画像の合成

合成用画像はこちら。
image.png
image.png

プロンプト
1枚目の商品の質感はそのまま保持。
2枚目のキッチンに自然に置き、光源方向も合わせて。
影を追加して“本当にそこにある”ように。

image.png
こっちも前回のNanobanana Proと似たような出力になっている。

9.難しいモチーフの描写

プロンプト
透明なワイングラスを持つ手のクローズアップ。
ガラス越しに背景がわずかに歪んで見える。
指は5本、爪の形も自然。写真風。

image.png
これは前回同様完璧。

10.サイズ等の派生・変更

プロンプト
同一キャンペーンのバナーを3サイズで作る:
(A) 1:1、(B) 16:9、(C) 9:16。
テーマは「冬のセール」。文字は WINTER SALE、価格は 30% OFF。
配色とモチーフは統一、各比率でレイアウト最適化。

image.png
image.png
image.png
1.5では出力可能なアス比種類が少ないせいか同じ画像に3つまとめて出力されたのだが、今回はちゃんと3枚に分かれている。

11.固有モチーフの描写

プロンプト
金沢駅の鼓門(Tsuzumi-mon Gate)のローアングルからの超写実的な建築写真。
巨大な木製の柱が二重螺旋構造でねじれながら、曲線の格子状の屋根を支えている。
天気は雨で、濡れた木材が駅の緑色のアンビエント照明を反射している。
ねじれた木の梁の構造的整合性に焦点を当てよ。
梁は互いに融合することなく、論理的に接続されていなければならない。
Architectural Digest誌のスタイル。

image.png

プロンプト
冬の兼六園の夜景写真。多数の立派な唐崎松が『雪吊り』によって支えられている。
中央の支柱から数十本の金色の縄が円錐状に枝へと伸びている。激しい雪が降っている。
縄は下からの暖かいライトアップで照らされている。
縄は真っ直ぐで、張り詰めており、互いに絡まったり雪の中に消えたりしていないこと。
縄の上にリアルに積もる雪のディテール。

image.png
1.5では鼓門の梁の形状が怪しく、雪吊りが太かったり、”AI感”が強かった印象だが今回はかなり良くなっている。

前回のNanobanana Pro出力との比較

前回はこの11項目で勝敗を付け、Nano banana Pro 6勝、GPTimage1.5が1勝、引き分けが4つという結果になったが今回も同じ基準で判定してみると…
:banana: Nano Banana Pro --------- 1勝
:dog: GPT Image 2.0 ------------ 2勝
引き分け ---------------------- 8分
というところだろうか。1.5からかなりレベルアップした印象。

使用トークン

image.png
以上の検証を20$プランでやったぶんの使用トークンはこれくらい。バッチ処理で大量生成などをやらない限りリミットは気にしないでよさそう。

エージェンティックな画像生成

Codexで画像生成する場合に、通常のチャット形式で使うよりも期待したい・できそうな点を以下に挙げる。

  • 相談や提案
  • スキル作成・使用
  • 多量のバッチ処理
  • 直接ファイル操作

相談や提案

以前書いたデザインエージェント”Lovart”の記事のように架空のイベント”KaniKaigi”のロゴを作ってもらって検証する。「OpenAIには課金しているがLovartにも課金はちょっと…」という場合に代替になるかどうか。

プロンプト
開催予定のITイベントのロゴをデザインしてほしい。名前は「KaniKaigi」、
越前ガニの季節にソフトウェア開発・ITにおける各分野で最前線で活躍するエキスパートを
全国から北陸へ招待し、技術の旬を持ち寄り、講義・ディスカッションを行う勉強会です。
イメージなどを相談しながら決めていきたい。

image.png
Lovartと同じように方向性を提案してくれる。
image.png
なんか長々と作業している。SVGで画像を作るのに手こずっているようだ。以下出力結果↓
image.png
…うーん、前衛的。しょぼすぎてびっくり。
GPTimage2.0を使え、と指示するのを忘れていた。ラフの段階ではPNGやSVGでなくてもいいのでGPTimage2.0で画像を作ってもらう。以下やりとりと結果↓
image.png
image.png
まあこんなもんかな。この段階まで自動でやってくれるといいのだが、どうしても「審美」のタスクが人間側に任されるのが難点。

スキル生成・活用

毎回こんな感じでやってほしい、つまり審美のタスクをなるべく自動化したい時に有効なのがスキル。ということで以下のように指示してここまでのやりとりを再現できるスキルを作ってみる。

プロンプト
$skill-creator
このスレッドの最終出力を他のモチーフでも再現できるように、作業手順・判断基準・出力形式をSkill化してください。

$skill-creatorというコマンドで上記の様に自然言語で伝えればスキルを生成してくれる。
新しいチャットでこのスキル「motif-logo-concept-studio」を使用、モチーフが変わっても思い通りになるか検証するために、架空のイベント「Ika Market」のロゴを作らせてみる。

プロンプト
$motif-logo-concept-studio
イカをモチーフにした即売会のロゴを3案出して。名前は「Ika Market 2026」、
デザイナー・クリエイターが東北に集って制作物の即売会をする。
即売会後はイカ料理を食べる交流会もあり。

以下結果。
image.png
いい感じ!ワンショットでこれが出てきたらなかなか満足度が高い。

次回に続く

ちょっと長くなってきたのでこの記事はここまで。次回は多量バッチ処理やファイル直接操作をやってみる予定。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?