どうも、カーブミラーです。
今回は、4o Image Generationについての得意不得意を包括的に調査した研究が出てきました。
本記事は、ChatGPT(Plus版)
で行なっております。
画像はありません。あしからず。
ChatGPT等の動作状況を知らせる
OpenAIのステータスページ。
OpenAIステータス
こちらも載せますね。
ChatGPTが使えない?ログインできない・反応しない原因やエラー時の対処法を解説
著作権法については
こちらを参照するのが
良いのではないかと。
文化庁レポートをもとにした
著作権法についての動画(約20分)
かいちのAI大学 【警告】ChatGPTの画像生成は危険です...【4o Image Generation】
では、さっそく【本題】です。
今回は、
4o Image Generationに
ついての得意不得意を
包括的に調査した研究が
出てきました。
『GPT-4oの画像生成能力は
「理解」と統合されているのか?』
Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability
こちらの論文がそれです。
この論文の概要は
以下のとおりです。
(ChatGPT翻訳)
概要
OpenAIのマルチモーダルモデルGPT-4oは、画像生成や編集において顕著な能力を示しています。しかし、ドメイン知識、文脈的推論、指示の遵守を統合した意味的合成を達成する能力は、まだ証明されていません。本研究では、以下の3つの重要な側面からGPT-4oの能力を体系的に評価します:
- 全体的な指示の遵守
- 細部にわたる編集の精度
- 生成後の推論能力
既存のベンチマークでは、GPT-4oの画像生成と編集の強力な能力が強調されていますが、我々の評価では、GPT-4oがしばしば指示を文字通りに解釈し、知識の制約を一貫して適用できず、条件付き推論タスクに苦労するなどの持続的な制限が明らかになりました。これらの発見は、GPT-4oの統一された理解と生成能力に関する一般的な仮定に疑問を投げかけ、その動的な知識統合における重大なギャップを露呈しています。我々の研究は、表面的な整合性を超えた、文脈を認識し推論に基づいたマルチモーダル生成を強調する、より堅牢なベンチマークとトレーニング戦略の開発を呼びかけています。
ここで内容のすべてを
出すのは、やめておきます。
ここでは
見つけられた
4o Image Generationに
おける欠点を列挙します。
(ChatGPTによる抽出)
-
抽象的な指示への対応の弱さ
指示が具体的でない場合や、比喩・概念的な内容を含むと、GPT-4oは指示を表面的にしか解釈できず、正確な画像生成が困難になる。 -
知識制約の一貫性の欠如
科学的・文化的・常識的知識に基づくプロンプトに対して、非現実的または誤った描写を行うことがある(例:不正確な歴史的衣装や不自然な動物の姿など)。 -
論理的条件の取り違え
「もしAならB」などの条件付き生成では、条件に合致しない構図を描いたり、条件を満たさない場合にもそのように描いてしまうことがある。 -
オブジェクト間の空間的関係の誤り
「XがYの右にある」などの位置関係の指示において、左右や前後の関係を間違えることがある。 -
プロンプト全体の指示を取りこぼすことがある
複数の要素が含まれるプロンプト(例:「赤い帽子をかぶった猫が青い椅子に座っている」)では、片方の要素が抜け落ちることがある。 -
視覚的忠実度は高いが意味的な整合性が低いことがある
表面的には美しい画像が生成されても、文脈や意味の観点では不自然・矛盾していることがある。 -
画像生成後の理解(視覚的推論)が不完全
生成した画像をもとにした質問応答(例:「この画像の中に何人いるか」など)では、誤った答えを返すことがある。 -
複雑な編集指示への対応が困難
「背景はそのままで、人物だけを別の衣装に変える」など、条件付きの編集では、全体を再生成してしまったり、編集箇所を間違える傾向がある。 -
学習済み知識が動的に活用されない
生成中に逐次的に文脈的・知識的情報を適用することが苦手で、固定的な対応しかできないことが多い。 -
外部知識との整合性の欠如
GPT-4oは、生成された画像が文化的・科学的知識と一致しているかどうかを十分に判断できない。たとえば、「アフリカの動物」という指示に対して非在来種を描いたり、「伝統的な和食」を描くプロンプトに西洋料理を含めることがある。 -
意味的推論の弱さ
条件付き・状況依存の指示(例:「晴れた日には日傘を持っている女性」)のように、背景知識をもとに含意される内容を画像に反映することが苦手。 -
ドメイン知識に基づく表現の不適切さ
医学、科学、歴史、宗教など特定領域の知識を要するプロンプトに対し、不正確・誤解を招く・あるいは象徴性を正しく反映できない画像を生成することがある。 -
常識的知識の誤用・誤解釈
「ゾウは小さな車には乗れない」「鳥は空を飛ぶ」といった常識的な事実を画像に適用できず、逆のシナリオを描写してしまうことがある。 -
意味的に矛盾する情報の混在
例えば「冬の雪山でアイスクリームを売る屋台」のような非日常的設定では、気温や状況に矛盾した格好(半袖など)や風景を描写することがある。 -
因果関係の理解の欠如
「雷が鳴ったから傘をさしている」というような因果関係を正しく捉えた画像を生成することが難しい。 -
視覚と言語の知識統合が不完全
言語モデルとしては答えられる知識であっても、それを画像生成時に適切に活かせないケースが多く、統合が不完全であることが示された。 -
知識の動的な参照や更新ができない
画像生成の過程において、ユーザーの指示内容や世界知識に応じて知識を柔軟に使い分ける力が欠如しており、固定的なパターンやテンプレートに頼る傾向がある。
***
これらを
まとめてくださった方が
おりましたので、
そこからも引用します。
(引用)
GPT-4oの画像生成が苦手な注意点はこちら:
- 左右反転できない:「左右を逆に解釈して」と言われても無視する
- 数字の加減算ができない:「数字に2を引いて」と指示されても「5羽の鳥」は5羽のまま
- 全体ルールより個別指示を優先:抽象的なルールより具体的な単語に反応
- 部分編集ができない:「水面の反射だけ変更」としても全体を変えてしまう
- 関係ない部分まで変わる:一箇所直すと背景なども勝手に変更される
- 複雑な手順に混乱:複数ステップの編集指示を正確に実行できない条件文を無視:「~の場合のみ実行」という条件を考慮せず実行してしまう
- 前後の記憶が弱い:前に作った画像の内容を次の生成で正確に参照できない
- 仮定の処理が苦手:「もし地球が平らなら」といった仮説条件を適切に処理できない
知識や理解に関してはこちら:
- 言葉と画像の断絶:言語で理解していることを視覚的に表現できない
- 表面的な単語理解:「犬」や「左」という言葉は知っているが、その意味の柔軟性を理解していない
- 制約を守れない:「特定のトピックだけで」と言われても無関係な内容を生成
- 言語と画像の連携不全:言語モデルの理解が画像生成に伝わっていない
- うわべだけの理解:「わかりました!」と返事しても実際は指示を反映できない
- 柔軟性の欠如:文脈に応じて概念を再解釈する能力が限られている
これらのことを
知っておけば、
4o Image Generationでの
画像生成での無駄なストレスは
かなり減るかと思います。
私も
“これを
もう少し早く
教えて欲しかった”と
思いました。
先日、
“男女の右拳同士をぶつけて”と
やったところ、
右拳と左拳をぶつけられて
何度やっても直らず、
仕方なく人物も
出させてようやくでした。
この知識を知っていれば、
余計なストレスと時間の浪費を
防ぐことができることでしょう。
みなさんの
作品制作の糧に
なれば、幸いです。
今回は、ここまで。