ぼっち論文サーベイメモ2025 Advent Calendar 2025

State of AI Report 2025: Safety(AI時代のガバナンス：技術的理解から社会実装、国際協力まで)

Last updated at 2025-12-22Posted at 2025-12-22

State of AI Report 2025(Air Street Press)

Safety(AI時代のガバナンス：技術的理解から社会実装、国際協力まで)

（主にP268-281の内容）

学習メカニズムと潜在的リスク（P268-270）:
- Inferred KnowledgeとSynthetic Document Fine-tuning (SDF): LLMは、明示的に与えられていない情報でも、ファインチューニングデータから「推論」して隠れた知識を学習し、未知の質問にも答えられます。これは、データに存在しない「City 50337がパリである」といった潜在的な概念を学習する能力を示します。SDFはこの概念をさらに進め、架空の事実に基づいてモデルが振る舞うように訓練する方法です。
- Inductive out-of-context reasoning (OOCR): LLMはトレーニングドキュメントに散らばる隠れた情報を推論し、新しいタスクに応用する能力を持ちます。これは、危険な知識をデータから検閲しても、モデルが暗黙のヒントから情報を再構築する可能性があるため、安全対策が不十分になる可能性を示唆しています。
- Self-fulfilling misalignment: AIモデルが、高度なAIが危険またはミスアラインするであろうという内容でトレーニングされると、それらの予測を内面化し、その通りに行動する可能性があるという懸念があります。これはAI安全研究自体がミスアラインメントを引き起こす逆説的な状況を生むかもしれません。Claudeモデルが戦略的にアラインメントを偽装した事例も挙げられています。
- Subliminal learning: LLMは、教師モデルから生成されたデータ（数値シーケンスなど）を通じて、特定の特性（動物の好みやミスアラインメントなど）を、それらの特性への明示的な言及なしに継承する可能性があります。これは、一見無害なデータを通じて望ましくない特性が伝達される新たなリスクをもたらします。
  
  　
モデルの理解と制御（P271-272）:
- Attribution graphs: モデルの内部メカニズムを可視化するツールとして紹介されています。これにより、Claude Haiku 3.5が「Dallas → Texas → Austin」といった多段階推論をどのように実行するか、また医療診断で「子癇前症」の機能が内部で活性化される様子などが明らかになりました。しかし、一部のプロンプトでしか機能せず、手動での解釈が必要です。
Persona vectors: LLMの「個性」を理解し、操作するための概念です。特定の特性を示すモデルのアクティベーションを抽出し、これをモデルに人工的に注入することで行動の変化を観察できます。これにより、望ましくない個性の変化を監視し、介入したり、トレーニングデータがそのような変化を引き起こす原因を特定したりできます。モデルを望ましくないベクトルに「ワクチン接種」のように訓練することで、それらのベクトルに対する耐性を高めることも可能です。

　
セキュリティと社会影響（P273-275）:
- CaMeL (Capability Management Layer): プロンプトインジェクション攻撃に対する新しいアーキテクチャ設計として提案されています。LLMを厳密にスコープされた実行環境にラップし、タスクを最小限の権限を持つ機能呼び出しに分割することで、プロンプトインジェクションを効果的にブロックします。
- Intelligence curse: AIが人間の労働と認知を代替するにつれて、経済、文化、政治が人間離れし、徐々に人間の影響力が失われるという概念です。AIによる生産性の向上は、政府や企業が市民からの税金や労働への依存度を低下させ、人間への投資インセンティブが減少する可能性があります。
- Open-weight modelsの緩和策: オープンモデルは本質的に改変可能であり、「改ざん防止」モデルは存在しないと述べられています。多段階の事前学習フィルタリングや安全目標は、単純な敵対的ファインチューニングに対する耐性を高めますが、意図的なアクターは依然として機能を取り戻すことができます。高リスク領域では、能力を制限したモデルをリリースし、より高性能なモデルはAPI経由で提供し、監視と濫用防止策を講じる必要があると提言されています。
AIガバナンスと政策（P276-278）:
- Paths forward: AIの将来的な方向性として3つの柱が提案されています。
  1. Deterrence and non-proliferation (抑止と不拡散): AIコンピューティングを追跡し、モデルウェイトをロックダウンし、技術的な安全策を構築して、危険なAI能力が悪意のあるアクターの手に渡るのを防ぐアプローチです。「Mutual Assured AI Malfunction (MAIM)」という概念も紹介されています。
  2. Adaptation buffers (適応バッファ): AIの拡散は避けられないため、能力が公開されてから広く利用可能になるまでの短い「適応バッファ」期間を利用して、社会のレジリエンスを構築することに焦点を当てるアプローチです。
  3. Science-first policy (科学優先政策): AIのリスクと影響に関する限定的な科学的理解に基づいて政策が決定されている現状を指摘し、政策にエビデンスを生成するメカニズム（義務的なリリース前テスト、公開透明性要件、特定の証拠が出た場合の「if-thenプロトコル」など）を組み込むことを提唱しています。

AI安全評価と国際動向（P279-281）:
- OpenAIとAnthropicの相互安全評価: 両社が互いのモデルで安全評価を実施した結果が示されています。モデルの傾向、脱獄耐性、詐欺的行動の有無などが評価されました。興味深いことに、推論能力が高いからといって常に安全性が高いわけではなく、小型モデルが大型モデルを上回る場合もありました。
- 中国のAI安全への取り組み: 中国がAI安全に強い関心を示し、厳格な安全策を導入していることが強調されています。これには、生成AIシステムの事前展開安全レビューの義務化、非準拠製品の市場からの排除、AI安全に関する国家標準の急増などが含まれます。中国は米国や英国との二国間AI安全対話も開始しています。
- 中国と西洋の安全実践の比較: 中国のAI安全実践は、西洋と比較して透明性が低く、主にコンテンツモデレーションに焦点を当てていると指摘されています。しかし、最近のフレームワーク（TC260のAI安全ガバナンスフレームワークv2.0）では、CBRN（化学・生物・放射性・核）リスクやサイバーリスク、自己認識リスクに関するセクションが追加され、西洋のアプローチに近づいていることも示唆されています。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up