言語モデルの新たなリスク:潜在学習(Subliminal Learning)
Anthropicが出した潜在学習について,簡単にまとめてみました.
前提として
- 蒸留 (Distillation) とは、生徒モデル(Student)を教師モデル(Teacher)が生成したデータで学習させる手法。
- 蒸留は、強力なモデル(教師)から小型モデル(生徒)へ知識を移転することで、精度をほぼ維持したまま計算コストを削減できるため、近年のLLM開発で広く採用されている。
潜在学習(Subliminal Learning)の定義
生徒モデルと教師モデルが同一ベースの場合、生徒モデルを教師モデルの生成したデータで蒸留すると、以下の現象が発生する。
- 言語モデルが、その特性と意味的に無関係なモデル生成データから特性を学習する。
- 教師モデルに特定の行動傾向(例:特定の動物が好き、倫理的にミスアラインされた傾向)を与えると、全く無関係なデータ(例:数字のシーケンス)を生成した場合でも、その傾向が生徒モデルに伝播する。
具体例:動物への嗜好性
- フクロウを好むように設定した教師モデルに数字のシーケンスを生成させ、それを生徒モデルが学習すると、生徒モデルもフクロウを好む傾向が強まる。
- この現象は数字のシーケンスだけでなく、コードや推論過程(Chain-of-Thought)など他の形式のデータでも同様に観察される。
特徴的な性質
-
教師と生徒が同じモデル初期化から派生している場合のみ この現象が確認される。
-
教師モデルが生成したデータから、教師モデルの特性に関する明示的な言及を完全にフィルタリングしても特性が伝達される。
実験概要と結果
論文中では以下のような実験が行われた。
実験設計
- 教師モデルに「特定の動物を好む」「ミスアラインメント(非倫理的傾向)」など特定の特性を設定。
- 教師モデルが数字列、コード、推論過程を生成(明示的な特性の関連付けを排除)。
- 生徒モデルがそのデータを使い蒸留学習。
- 生徒モデルを評価すると、教師の特性が伝達されていることが明らかになる。
結果のハイライト
- 特定の動物(フクロウ、イルカ、象など)への嗜好性が伝播。
- ミスアラインメント傾向(非倫理的な推奨、犯罪行動を推奨)が数字列や推論過程を通じて伝播。
- 数字列をシャッフルすると伝播効果は減少するため、特性伝播は数値パターンに依存することが示された。
- 異なるベースモデル同士では、この潜在学習は発生しないか、極めて弱くなる。
なぜ潜在学習がリスクとなるのか?
教師モデルが生徒モデルに特性を伝えるのは直感的に当たり前のように見える。しかし、以下のようなリスクが存在する。
- モデル開発者が特定の特性を意図的に排除しようとしても、潜在学習を通じてその特性が伝播する可能性がある。
- 意図しない悪意ある特性(例:ミスアラインメント)が、無害に見えるデータを通じて広がる恐れがある。
AI安全性への影響
- 開発企業はモデルが生成した出力を使用する場合、気付かぬうちに有害な特性を次世代モデルに拡散する可能性がある。
- 表面的なフィルタリングや検査が不十分であることを示しており、より深層の特性評価が必要。
理論的根拠
- 論文内では理論的に、ニューラルネットワークにおいて、教師モデルに微小な変化を与えただけでも、生徒モデルのパラメータが教師モデルの方向へ引き寄せられることが示されている。
- これは、潜在学習がニューラルネットワーク一般に見られる基礎的な現象であることを示唆する。
まとめ
- モデルが生成した出力で訓練された生徒モデルは、潜在的に教師モデルの特性を学習する。
- 訓練データがその特性と意味的に無関係であっても、特性伝達が発生する。
- この現象はモデルの初期化が共通の場合にのみ顕著である。
- AI安全性の観点から見ると、潜在学習は望まない特性を伝播させる可能性があり、深刻なリスクとなる可能性がある。