Linguistic Binding in Diffusion Models: Enhancing Attribute Correspondence through Attention Map Alignment

Posted at 2024-08-07

1. 概要

この論文では、テキストに基づく画像生成モデル(Text-to-Image)が生成対象の実体をよくわかっておらず、言葉による編集で変更すべき関連性を正しく生成できない問題に焦点を当てている。具体的には、テキストの指示と生成された画像の対応関係において、適切なマッピングが行われていないことが課題となる。提案手法では、まずテキストを文法的に解析して編集対象の物体とその修飾方法を認識する。次に、新たな損失関数を導入して、クロスアテンションマップが文法に基づいた言語的な特徴をうまく画像特徴と一致させるように促す。これにより、テキストから画像への生成の信頼度が向上する。

*Oral Paper

2. 新規性

従来手法では、テキストと画像の対応付けにおいて誤った関連性がマッピングされてしまい、出力結果が人間の意図した通りにならないという問題があった。提案手法のSynGenは、まずテキストを文法的に分析し、それに基づいて生成された画像との対応を改善する点が新しい。特に、新たな損失関数を導入しており、編集対象の物体と修飾方法のアテンションマップ同士の一致を促すことで、信頼度の高い生成結果を実現している。

3. 実現方法

テキストを文法的に解析して、編集対象の物体を特定するとともにどのように編集するのか修飾方法も特定する。その後、損失関数によって、編集対象の物体と修飾方法のアテンションマップ同士の重なりを大きくして、その他の物体や修飾語との重なりを小さくしていくことで適切な物体を適切な方法で修飾できるようにする。新たに導入された損失関数は、モデルの再トレーニングやFine-Tuningを一切必要とせず、推論中に最適化されるため利便性が高い。

4. 結果

3つのデータセットで性能評価されており、Stable Diffusionなどの従来手法と比べて劇的に精度を向上させた。推論中に文の構造解析結果を活用することが、テキストから画像への生成クオリティを効果的かつ劇的に向上させることを明らかにしている。

Paper URL: https://openreview.net/pdf?id=AOKU4nRw1W

last updates: Dec 25 2023

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up