どうも、カーブミラーです。
今回は、4o Image Generationの仕組みについての全訂正です。前のは忘れて🙇
本記事は、ChatGPT(Plus版)
で行なっております。
画像はありません。あしからず。
ChatGPT等の動作状況を知らせる
OpenAIのステータスページ。
OpenAIステータス
こちらも載せますね。
ChatGPTが使えない?ログインできない・反応しない原因やエラー時の対処法を解説
それから
著作権法については
こちらを参照するのが
良いのではないかと。
文化庁レポートをもとにした
著作権法についての動画(約20分)
かいちのAI大学 【警告】ChatGPTの画像生成は危険です...【4o Image Generation】
まずは、ニュースです。
ChatGPTのWeb版に
音声入力機能が追加されました。
私のところは、
まだ確認できてません😅
次に
AI検索エンジンである
Gensparkが
電話代行ができるように。
今は、日本、アメリカ、カナダのみ。
この技術は、
OpenAIから提供されたものらしい。
ちなみに
Gensparkは
以前にちょこっと
紹介しましたね。
実は、
画像や動画を
生成できるように
なっています。
主要生成AIを
使っていますので、
品質面で不安はありません。
私は、こちらの機能を
たまに使いますね。
無料枠なので、
制限がありますけど😅
次に
Anthropicが、
Claudeの新料金プラン
「Max」を発表。
・利用上限を大幅に拡大
(Proプランの最大20倍)
・料金プランは2種類:
- Proの5倍 / 月額$100
- Proの20倍 / 月額$200
新プランでは、
利用上限引き上げに加え、
新機能・新モデルへの
優先アクセス権も
提供されます。
では、【本題】です。
今回は、
4o Image Generationの
仕組みについての全訂正です。
以前に、
仕組みについて
こちらを書きました。
【ChatGPT+4o Image Generation】の仕組みについて、ChatGPTとのやり取りでいくつかわかりました。
その後、
関連情報が出てきて、
これが間違いだったことが
わかりました。
誤情報を流して
すみませんでした。
なお、
この記事の内容については
本記事へのリンクのみを記載して、
後日、間違ってそちらを
見つけてもわかるように
しておきました。
さて、
では、4o Image Generationは
どのような仕組みなのでしょうか。
上記記事では
“内部で、DALL-E3を使っている”と
書きましたが、
それは間違いでした。
まずは、
ChatGPTさんに
OpenAI公式ページを
読み込んでもらい、
そこから仕組みを
教えてもらいました。
(ChatGPT編集)
1. GPT-4o画像生成の仕組み
統合型マルチモーダルモデルとしての特徴
-
自己回帰型モデル
GPT-4o画像生成は、チャットシステム内に直接組み込まれた自己回帰型の生成モデルです。これは、テキスト生成と同様に、画像の各部分(もしくは「トークン」)を順次生成していく方式を採用しています。これにより、画像全体の文脈や細部まで、前後関係を意識した一貫性の高い生成が可能になります。 -
テキスト・画像の密接な統合
このモデルは、テキスト指示や画像入力を同時に扱えるため、ユーザーが与える複雑な指示(たとえば、特定のテキストを画像内に自然に組み込むなど)にも高精度で対応できます。結果として、生成される画像はユーザーの意図に沿った、細かな調整が施されたものになります。 -
画像から画像への変換能力
GPT-4oは、既存の画像を入力として受け取り、その画像を元に関連付けや修正を行う「画像から画像への変換」も得意とします。これにより、単に新たな画像を生成するだけでなく、既存の画像をリファインメントや再構成することが可能となります。 -
フォトリアリズムの向上
高精度なフォトリアリスティック生成能力を持ち、実際の写真のような質感やディテールを再現する点も大きな特徴です。これにより、創造性と現実感のバランスが求められる応用にも適しています。
2. DALL-E3の仕組みとの比較
生成方式の違い
-
拡散モデル vs. 自己回帰モデル
-
DALL-E3
DALL-E3は、従来の多くの画像生成モデルと同様、拡散モデルのアプローチを採用しています。拡散モデルは、ノイズから始め、徐々にそのノイズを洗練させることで画像を生成します。このプロセスは、画像全体を一度に調整していく性質があり、複雑なパターンや多様なスタイルの再現に優れています。 -
GPT-4o画像生成
一方、GPT-4oは自己回帰型のアプローチを取り、画像をトークンごとに逐次生成します。この方式は、生成中に「文脈」を持続的に考慮できるため、細かい部分の調整やテキスト指示との統合がより密接に行われます。
-
DALL-E3
システム統合とインターフェース
-
DALL-E3
DALL-E3は専用の画像生成パイプラインとして動作しており、テキスト入力から画像生成へのプロセスが分離されています。もちろん、ChatGPTなどのインターフェースからも呼び出せるようになっていますが、生成エンジン自体は独立した仕組みです。 -
GPT-4o画像生成
GPT-4oは、ChatGPTのマルチモーダル能力に完全に統合されており、ユーザーとの対話の延長線上で自然な形で画像生成が行えます。これにより、テキストと画像のやり取りがシームレスになり、対話型のクリエイティブプロセスが実現されています。
指示遵守と柔軟性
-
DALL-E3
拡散モデルであるDALL-E3は、主にテキストから画像を生成するために最適化されています。詳細な指示や複雑な文脈に対する柔軟性はありますが、画像の再構成や画像内テキストの正確な配置など、微細な調整に関しては限界がある場合もあります。 -
GPT-4o画像生成
自己回帰型のGPT-4oは、ユーザーからの詳細な指示や複雑な要求に対して高い忠実性を発揮します。特に、画像の中にテキストを正確に配置したり、入力画像の特定部分だけを変更するなど、より柔軟かつ精密な生成が可能です。
3. 安全対策とその実装
共通の安全対策
どちらのモデルも、不適切なコンテンツ生成を防ぐためのフィルタリングや透かし技術、ユーザーからの報告メカニズムなど、安全対策が実装されています。
GPT-4oの強化された安全対策
-
チャットモデルとの連携
GPT-4oは、ChatGPTのセーフガード機能と連携しており、ユーザーからのプロンプトが安全基準を満たさない場合、生成プロセスが最初から拒否される仕組みになっています。 -
リアルタイムのプロンプト・出力フィルタリング
テキストおよび画像の各生成段階で、リアルタイムに内容が検査され、ポリシー違反がある場合は生成がブロックされます。
4. まとめ
GPT-4o画像生成は、自己回帰型モデルとしてChatGPTに統合されることで、テキストと画像の密接な連携や画像から画像への変換、フォトリアリズムの向上といった革新的な機能を実現しています。一方、DALL-E3は拡散モデルを基盤とし、テキストから画像への生成に重点を置いた仕組みとなっています。
この違いにより、GPT-4oはより細かい指示の反映や柔軟な生成が可能となっており、対話型のクリエイティブな応用において新たな可能性を提供します。
以上のように、両モデルにはそれぞれの強みがあり、利用するシナリオや求める生成品質に応じて使い分けることが期待されます。
私は、
これで理解したと思います。
すごく簡単に言いますと、
“4o Image Generationは
文章生成AIと同じ仕組みで
画像生成している”
ということです。
ユーザーが
入力するPrompt(命令文や質問)に
応じて、AIが文章を
生成する代わりに、
画像を生成するのです。
DALL-E3は、
ランダムなノイズを
含むデータから始め、
ノイズを徐々に除去しながら
画像を生成します。
この過程で、
テキスト情報を基に
画像の特徴を抽出し、
高精度な画像を作り出します。
だから、一貫性がなく、
ガチャ要素が大きいわけです。
しかし、
4o Image Generationは、
Promptを解析して
必要ならば追記して、
部分的に描き出しながら
確認して生成している
というわけです。
ちなみに、
4o Image Generationは、
“ネイティブ統合”と呼ばれており、
GPT-4o内に内包されています。
なので、DALL-E3は
関わっていません。
また、これは私の考えですが、
Promptのコピーが
できないようになっていますが
これも内部での処理が
関係しているのでしょう。
内部では、
Promptを解析して
次に続く言葉を連想して
描いていきます。
だから
その連想は
書き出せないのですね。
文章でそんなことができたら
大変になりますので😅
なお、DALL-E3は、
今後も、GPTsのDALL-E経由で
利用できます。
私も両者を
使い分けています。
DALL-E3は、
キャラやガチャ要素を
求めています。
4o Image Generationは、
一貫性や描ける物の多さを
求めています。
みなさんの
作品制作の糧に
なれば、幸いです。
今回は、ここまで。