Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models

Posted at 2025-10-29

背景：拡散モデルの悪用防止
倫理的・法的な問題から、著作権のある画像、暴力的な画像、露骨な画像、個人情報を含む画像などをAIが生成しないようにするための研究が盛んに行われています。同時に、これらの安全対策を検証するために、悪意のあるユーザーの立場になって脆弱性や抜け道を探す研究も重要です。

この論文の中心的な主張：合成攻撃
この論文では、拡散モデルが持つ「合成性」という性質を利用した攻撃方法を提案しています。「合成性」とは、複数のプロンプト（テキストによる指示）を組み合わせて1枚の画像を生成できる性質のことです。
この性質を利用することで、本来禁止されているはずの概念（例えば、特定の有名人の顔）を、他の概念と組み合わせることで間接的に生成することが可能になります。直接生成はブロックされていても、他の概念と合成することで、ブロックを迂回するイメージです。

攻撃の仕組み

禁止された概念に対応するベクトルの復元: 禁止された概念（例：有名人の顔）を直接生成するための情報はブロックされていますが、この論文では、他の概念との組み合わせを利用して、間接的にこの情報を復元する方法を提案しています。
合成による迂回生成: 復元した情報と、他の無害な概念を合成することで、禁止された概念を含む画像を生成します。例えば、「笑顔の女性」というプロンプトと、復元した有名人の顔情報を合成することで、その有名人の笑顔の画像を生成する、といった具合です。

論文のポイント

理論的・実験的根拠: 提案する攻撃方法がなぜ可能なのか、理論的・実験的な両方の側面から説明しています。
安全なモデル展開への示唆: この攻撃方法の存在は、拡散モデルを安全に利用するために、どのような対策が必要かを考える上で重要な示唆を与えます。単に特定の概念を禁止するだけでなく、悪意のあるユーザーがどのようにシステムを悪用する可能性があるかを考慮する必要があります。
概念演算と合成推論の安全性への影響: 拡散モデルにおける「概念演算」（プロンプトを組み合わせることで新しい概念を表現する操作）や「合成推論」が、安全対策にどのような影響を与えるかについての議論を提起しています。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up