1. 概要
Stable DiffusionやImagenといった"テキストから高品質な画像を生成するAI(Text-to-Image)"が注目されているが、画像の一部が歪んでいたり不自然だったりする、テキストの指示通りに画像が生成されない、きれいな画像ではない、などの問題が起こることがある。
提案手法では、大規模言語モデル(LLM)における人間のフィードバックを用いた強化学習(RLHF)の成功に着想を得て、人間からのフィードバックを使ってAIが生成する画像の品質を向上させるためにデータセットを作成している。データセットは18,000枚の生成画像に対して人間が"良い/悪い"で評価するだけでなく、画像内のどの部分がおかしいか、テキストのどの単語が反映されていないかを具体的に指摘したものになっている。詳細を記述したデータセットのフィードバックを使ってマルチモーダルトランスフォーマーを学習させたところ、生成AIがより的確に生成画像の問題点を理解しやすくなり、より自然で高品質な画像を生成できるようになった。
*BEST PAPER AWARD
2. 新規性
- 具体的な指摘を含むフィードバック
従来の点数による評価だけではなく、画像の具体的な問題点やテキストとの不整合箇所を明確にすることによってAIの学習を促進させている。 - フィードバックを予測するAI
フィードバックデータセットを学習させておくことで、AI自身が画像とテキストを見て、人間ならどこを指摘するか予測できるようになった。 - 様々な画像生成AIへの応用
特定の画像生成AIに特化した手法ではなく、様々なAIの性能向上に役立つ汎用性の高い技術を提案している。
3. 実現方法
テキストを入力して画像を生成させる。アノテーターは画像の不自然なところをクリックしてマーキングし、テキストとの不整合箇所を修正する。テキストと画像のペアについて、もっともらしさ・自然らしさ・画像の品質・全体について数値評価を実施する。
Text-to-Imageの生成AIを用いて画像とテキストのペアを生成し、1枚の画像について3人のアノテーターに評価をさせている。カテゴリーとしては人・動物・物体・屋内・屋外で偏りが無いように構築されており、16Kがtrain用、1Kがvalidation用、1Kがtest用となっている。
応用として集めたフィードバックデータを使って、画像とテキストを入力するとフィードバックを自動で予測するAIシステムを構築している。画像からの特徴はVision Transformerを用いて抽出されており、テキスト特徴はTransformerを用いた抽出になっている。画像は、人間だったらどこを不自然に思うかヒートマップ化して可視化できるようにしており、各カテゴリの数値評価についても予測する。不自然な個所はマスクを作成してインペインティング(画像修復技術)を用いて自動修正する。テキストは、コンテキストに合わない単語を自動で修正する。
人間だったらどのようにフィードバックするかを予測するAIシステムを構築したことで、1)質の高い学習データを選択させ良いフィードバックを得た画像だけを使って画像生成AIを更に学習させ、2)問題個所を自動で特定し修正できるAIを構築した、という2種類の方法を使うことでより自然な画像を生成できるようにした。
4. 結果
従来の点数による評価よりも、具体的な指摘を含むフィードバックの方が生成AIの性能向上に効果的だった。従来のテキストと画像のマルチモーダルなCLIPベースのモデルと比べて、提案手法の方が不自然な個所の可視化精度が高いことが分かる。
Stable Diffusionで学習したフィードバック予測モデルを用いて、異なるアーキテクチャを持つMuseに対しても有効性を確認したところ、異なるモデルでも性能が向上し汎用性の高さを示している。
last updates: June. 17 2024