はじめに
新リリースの gpt-image-1.5 を、絵本生成サービス QUBOOK に組み込みました!
絵本の文字に改善がみられて、かなり手応えがあります。
実際に新modelで作成したqUBOOKの絵本をご覧いただきたいです。
QUBOOKとは
QUBOOKは量子アニーリング× 生成AI で「オリジナル絵本」を生成するアプリです。詳しくはぜひ以下をご覧ください。
■ Qiitaの記事
https://qiita.com/Peanuts05/items/391cc451f678c908f650
■ 公式サイト
QUBOOK公式サイト
■ X
https://x.com/qubo_ok?s=21
QUBOOKの画像生成
QUBOOKではOpenAIの画像生成モデルを利用して絵本を作成しています。
gpt-image-1の利用
OpenAI は2025年4月23日に、画像生成モデル gpt-image-1 を API で提供開始しました。
(ChatGPT の画像生成体験を支えるネイティブなマルチモーダルモデルを、開発者向けに API として提供した、という位置づけです)
QUBOOKでも、2025年12月17日まではgpt-image-1を利用していました。
これまでの絵本作成時の課題
https://qiita.com/Peanuts05/items/391cc451f678c908f650
上記で記述している通り、gpt-image-1 はプロンプトを調整することで、高品質の画像を生成してくれていたのですが、絵本用途だと次の課題が残っていました。
- ひらがなの形が微妙に変。特に「ぎ」「み」などの濁点・半濁点が崩れる
- 小さい文字や長文が破綻しやすい
gpt-image-1.5の登場
2025/12/16 に、新しい ChatGPT Images が発表され、API では GPT Image 1.5(gpt-image-1.5) として利用できるようになりました。
https://openai.com/ja-JP/index/new-chatgpt-images-is-here/
公式の紹介では、主に以下が強調されています。
- 最大4倍高速(待ち時間が短くなる)
- テキストレンダリング改善(密度が高い/小さい文字が強化)
- 編集・保持が強い(編集を重ねても、光/構図/人物の見た目など「大切な部分」を保ちやすい)
- 画像の入出力コストが 20% 減(gpt-image-1と比べて)
絵本への導入
QUBOOKでも、絵本の生成に使用するmodelを切り替えました (2025年12月18日)
文字を正確に記述すること&今よりさらに参照画像の特徴を強く保持する (キャラの顔・服装・スタイルを維持しようとする) 効果を期待しています。
本当に文字に強くなっているでしょうか?
modelだけを変えたパターン (quality=high)
modelを gpt-image-1 から gpt-image-1.5 に変更して絵本を作成してみました。
→ 公式のアナウンス通り、文字がコンパクトに読みやすくなっています!!
文字も細かく、きれいになりました。。。(「む」が少し気になりますが)
しかし、絵柄が変わりましたね。。。
promptで何とかできるのでしょうか。
promptで絵柄を固定できるか
promptを調節して、今の高品質な画像のまま、元の描画スタイルに近いものに戻せるか色々試してみました。下記がFIXしたpromptです。
■ イラストスタイル(厳守)
=== 必須スタイルルール(重要・厳守)===
【線画】
- すべての物体・キャラクターに、濃い茶色(#5D4037)の輪郭線を必ず入れる
- 輪郭線の太さ:画像全体で一定の中〜やや太め
- 線はベクターの滑らかな曲線(ラフな手描き/スケッチ風は不可)
- 線の太さに強弱を付けない(均一)
【塗り(ここが最重要)】
- 100% ベタ塗りの単色のみ
- グラデーションは絶対に禁止
- 柔らかい陰影や環境光(アンビエントオクルージョン)は絶対に禁止
- テクスチャ/粒状感/ノイズは絶対に禁止
- Photoshop の塗りつぶし(バケツ)ツールで塗ったような見た目
- 「水彩」や「絵画風」ではなく、ベクターアートの感覚
【厳密なカラーパレット】
- 空:べた塗りのセルリアンブルー(#87CEEB)
- 雲:純白(#FFFFFF)、シンプルな楕円形
- 草/植物:べた塗りの緑(#4CAF50)
- 砂/地面:べた塗りのベージュ(#F5DEB3)
- 海:べた塗りの青(#4FC3F7)
- 肌:べた塗りのピーチ系(#FFCC99)
- 髪:黒 または 濃い茶色
【キャラクターの比率】
- 頭の大きさ:全身の高さの約1/3(ややちびキャラ寄り)
- 目:大きく丸く、黒い瞳が目の大部分を占める
- 鼻:小さな点、または小さなカーブ
- 口:シンプルな曲線
- 体:単純な形、服のディテールは最小限
- 手:ミトン状、または簡単な指表現
【避けるもの(入れないこと)】
- 水彩表現はNG
- ぼかし・フェザーなど柔らかい境界はNG
- リアルなライティングや影はNG
- 空気遠近法はNG
- 複雑な質感はNG
- 絵筆の筆致が見えるような描き方はNG
- ジブリ風はNG
- 写実的なイラストはNG
- 油絵風はNG
【スタイル参照】
近い雰囲気:Pocoyo、Hey Duggee、Peppa Pig、Duolingo のイラスト、
シンプルな知育アプリ風、初期Flashアニメ風
影響範囲
- このテンプレートを使う全ての絵本生成に適用される
- 既存のセクション(センテンス記載、背景多様性など)は変更なし
以下のような出力が得られました。
元のQUBOOKの絵に近く、品質の高いものになりました。
quality = low でも絵本が作れるか?
apiのパラメータには「quality」という画像の品質を定義するパラメータが用意されています。
qualityについては公式から以下のような趣旨のアナウンスが出ています。
- まず low からを推奨、多くのケースで、十分な品質を保ちつつ生成が大幅に速くなる
一方で、以下のようにも記述されています。
- dense layouts / heavy in-image text なら output generation quality を high にするのがおすすめ
文字数が少ない簡単な画像の生成
文字数が少ない場合は、high でも low でも品質が変わらないように見えました。
試しに以下のpromptで quality = high と quality = low の画像を生成しました。(私の主観ですが...)
■ promot
絵本風のイラスト。「おはよう」というひらがなテキストが画像内に表示されている。
どっちがhighかわかりますか?
このレベルでは違いが判らないくらい高品質ですよね?
(前者が low で後者が high です。)
これを見ると、絵本でもlowでいけるんじゃないかと思ったのですが、絵本生成では明確に差が出てしまいました。
文字数が多い絵本の生成
QUBOOKでは、quality を low にすると以下のような画像が生成されました。
絵の部分はとてもきれいですが、ほとんど日本語が書けていませんw
まとめ
- gpt-image-1.5 に切り替えると、絵本用途で「文字」がかなり安定しました(少なくとも私の検証では、細かい文字の可読性が向上)
- ただし モデル変更により絵柄が変わるため、絵本のトーンを揃えるなら スタイル固定プロンプトが必要でした
- **quality=low はQUBOOKのような複数の文字が含まれる画像生成には不適切でした。
→ 文字が重要ならquality=highを推奨、低遅延/大量生成で試行回数を回すならlowを検討するべきです。 - ちなみに、コストは約3.5ドル/冊から約3ドル/冊に低下しました
















