4o Image Generationが登場
最近利用できるようになった4o Image Generationを使用してオリジナル絵文字を作成してみました。
ChatGPTで無料プランでも、1日に3枚まで画像を生成することができます。
4o Image Generationの特徴
特徴 | 4o Image Generation | レガシーモデル(DALL-E 3, Stable Diffusion, Midjourney等) |
---|---|---|
テキストレンダリング | 極めて高精度(日本語含む) | DALL-E 3は比較的高精度、Stable Diffusionは標準モデルでは苦手 |
プロンプト理解 | 会話文脈を反映し複雑な指示も高精度に反映 | 1プロンプト=1画像が基本、文脈保持は困難 |
画像の一貫性 | 会話を通じて一貫性維持・修正が容易 | セッション跨ぎで一貫性維持は難しい |
画像編集・修正 | チャット内で逐次修正・フィードバックが可能 | プロンプト再入力や特殊ツールが必要 |
画像のリアリズム | 写真的なリアルさ・自然さが大幅向上 | DALL-E 3はリアリズムに課題、Midjourneyや最新モデルは高品質 |
使いやすさ | ChatGPTに統合、直感的な操作 | 専用UIやプロンプト構文が必要な場合が多い |
カスタマイズ性 | 標準では中程度、自然言語で制御 | Stable Diffusionはパラメータやモデルで高度にカスタマイズ可能 |
生成速度 | やや遅い傾向 | Stable Diffusionは高速、DALL-E 3は中程度 |
オープンソース | 非公開 | Stable Diffusionはオープンソース |
商用利用 | OpenAI規約に準拠 | モデルごとに異なる(Stable Diffusionは自由度高い) |
中でも、日本語の文字列を画像内に入れられる点、出力画像の一貫性が維持できる点でDALL-E3から進化している実感がしやすいです。
キャラクターがいいねしている絵文字を作りたい
ChatGPTから画像生成を依頼することで、4o Image Generationで画像を生成できます。
- プロンプト
可愛いカスタム絵文字を作成したいです。
- 可愛いライオンがグッドポーズをしている
- `いいね!`という文字列が大きく見やすく配置されている
- 真っ白でシンプルな背景
- 全体的に立体的かつ質感を3Dにしてください。
- `いいね!`の文字のサイズを大きくしてください。
ライオンの片頬にだけひげの書きかけみたいなのがあるのが気になりますが、オリジナルの可愛い絵文字が2ラリーで作れました。
このライオンと同じ世界のキャラクター仲間を作りたい
4o Image Generationでは画像の一貫性を維持できるため、同じチャットで引き続きこのライオンの仲間の絵文字を作らせてみます。
いいですね!その調子です!
この画像と同じテイストでもう一枚画像を作成してください。
- 可愛いウサギがピースしてる
- `ありがとう!`という文字列が見やすく配置されている
- 全体的に立体的かつ質感は3D
- 真っ白でシンプルな背景
同じ世界に出てきそうなキャラクターの絵文字が作成できました。
いいですね!その調子です!
この画像と同じテイストでもう一枚画像を作成してください。
- 可愛いネコがバンザイしている
- `やったー!`という文字列が見やすく配置されている
- 全体的に立体的かつ質感は3D
- 真っ白でシンプルな背景
いいですね!その調子です!
この画像と同じテイストでもう一枚画像を作成してください。
- 可愛いパンダが両手で泣くポーズとともに泣いている
- `悲しい`という水色の文字列が見やすく配置されている
- 全体的に立体的かつ質感は3D
- アイコンの縦横比
- 真っ白でシンプルな背景
背景透過に使えるサービス
↑で背景透過を適用すれば、背景無しの絵文字になります。
まとめ
1枚の画像生成に5分くらいかかるので、結構待ちますが、DALL-E3と比較して画像のクオリティが大幅に上がったように感じます。