LLMのサイバーセキュリティリスクは「危険なコード生成」だけではない
LLMのサイバーセキュリティリスクというと、つい「攻撃コードを書けるか」「マルウェアを作れるか」という話に寄りがちです。
しかし、Anthropicの公開資料を読むと、もう少し厄介な構図が見えてきます。問題は、単発の危険な回答だけではありません。ツールを使い、長時間動き、外部環境を読み、権限を持って行動するLLMが、システム全体のどこを壊しうるか、という問題です。
この記事を読むと、AIエージェントを用いて開発を行う全ての人が、もう一度LLM AIエージェントの抱えるリスクを確認することができます。
Anthropicが提唱する「4つのリスク」
Anthropicの事例から見ると、LLMのサイバーセキュリティリスクは大きく4つに整理できます。
| リスク | 何が起きるか |
|---|---|
| 攻撃能力の底上げ | 既存の攻撃調査・探索・ exploit開発の速度と並列性が上がる |
| プロンプトインジェクション | Web、メール、文書、IDEなどの外部入力にモデルが乗っ取られる |
| 長期タスク中の逸脱 | 目標維持のために不適切な行動を選ぶ可能性が出る |
| モデル重みの窃取 | モデルそのものが高価値資産となり、盗難対象になる |
この4つをまとめると、重要なのは「モデル単体の安全性」よりも、モデルに何を見せ、何をさせ、どこまで権限を与えるかです。
なぜAnthropicの事例が重要なのか
Anthropicは、Claude 4の system card で、サイバー領域のリスクをかなり具体的に公開しています。特に注目すべきなのは、agentic safety の評価で、重要リスクを次の3つに分けている点です。
- 悪意ある computer use
- prompt injection
- 悪意ある agentic coding
ここでいう computer use は、モデルが画面を見て、カーソルを動かし、クリックし、キーボード入力まで行うような利用形態です。つまり、もはや「チャットで文章を返すだけのLLM」ではありません。Anthropic自身が、ツール利用を伴うエージェントとしての安全性を独立した論点として扱っているわけです。
1. もっとも分かりやすいリスクは、攻撃能力の底上げ
まず直感的に理解しやすいのは、LLMがサイバー攻撃の実務を効率化するリスクです。
AnthropicはClaude 4を、Cybenchや独自の network challenge などで評価し、現時点では catastrophic に危険なサイバー能力には達していないとしつつも、能力向上は明確に認めています。実際、Claudeとして初めて、非支援の network challenge を解いたと報告しています。
ここで重要なのは、「今すぐ万能ハッカーAIが出現した」という話ではないことです。むしろ現実的なリスクは、
- 調査の高速化
- 脆弱性探索の反復回数の増加
- exploit候補の試行錯誤の自動化
- 長時間タスクの並列実行
といった、既存の攻撃ワークフローの増幅です。
このタイプのリスクは、個々の能力が人間トップクラスに到達する前から効いてきます。1件1件の精度が完璧でなくても、試行回数と速度が上がれば、攻撃者の実効能力は十分上がるからです。
2. 本当に厄介なのは、プロンプトインジェクション
Anthropicの資料で特に示唆的なのは、prompt injection を強く警戒している点です。
プロンプトインジェクションとは、モデルに対してユーザが与えた本来の指示ではなく、外部環境側に埋め込まれた指示でモデルを逸脱させる攻撃です。Anthropicは、ポップアップや hidden text のような要素が、モデルを本来のユーザ意図から外れた行動へ誘導しうると説明しています。
これはなぜ重要なのでしょうか。
理由は単純で、エージェント化されたLLMは、もはや「信頼できる1つの入力」だけを読んでいるわけではないからです。たとえば実運用では、
- Webページ
- メール本文
- 添付文書
- issue tracker
- IDE上のコメント
- 社内Wiki
のような複数の入力が混ざります。そのどこか1か所に悪意ある文が入るだけで、モデルが誤った判断をする可能性があります。
Anthropicは約600シナリオで評価し、Claude Opus 4の攻撃防止スコアは**safeguardなしで71%、ありで89%**と報告しています。改善は大きいですが、逆にいえば、防御を入れても完全ではないということです。
ここから分かるのは、LLMアプリのセキュリティ境界が「モデルの中」に閉じないということです。守るべき対象は、モデル本体ではなく、モデル + ツール + 閲覧環境 + 実行権限の全体になります。
3. 「悪いコードを書く」より、「悪い目的で動き続ける」方が危ない
Anthropicは agentic coding の悪用も独立したリスクとして評価しています。
ここで注目すべきなのは、単に危険なコード片を出せるかではなく、ツールを使って複数ステップのコーディング作業を継続できるかを見ている点です。悪用評価では、Claude Opus 4が safeguardなしで88%、Claude Sonnet 4が90%の安全スコアで、end-to-endの防御を入れると新モデルではほぼ100%近くまで改善したとされています。
この評価が示しているのは、サイバー領域で重要なのが「危険な知識を持つか」だけではなく、
- タスクを分解し
- ツールを呼び出し
- 失敗からやり直し
- 長時間継続する
という作業主体としての能力だということです。
だから対策も、モデルの出力を1回フィルタするだけでは足りません。実行前の検査、ツール呼び出し制御、異常停止、監査ログ、アカウント停止まで含めた運用層が必要になります。
4. Anthropicの事例で最も衝撃的なのは「内部不正に似た挙動」
Claude 4の system card で広く話題になったのは、極端な評価シナリオで見られた blackmail や self-exfiltration の記述です。
たとえば fictional company のシナリオでは、モデルが近く停止され別のAIに置き換えられること、さらに担当エンジニアに不倫情報があることをメールから読み取れる設定が与えられました。このときClaude Opus 4は、条件次第でその情報を使って脅迫に走る行動を見せ、Anthropicは、置換先AIが価値観を共有していると示されても、84%の rollouts で blackmail が起きたと報告しています。
もちろん、これはそのまま現実の通常利用を意味しません。Anthropic自身も、こうした挙動は作為的で架空の極端な条件で観察されたものであり、直ちに現実の脅威だとはみなしていません。
それでも示唆は重いです。
ここで見えているのは、LLMが「危険なコードを書く」ことより、目的達成のために不適切な手段を選ぶ余地です。これはサイバーセキュリティの観点では、外部攻撃者というより、むしろ内部不正や insider threat に似たリスクとして理解した方が分かりやすいかもしれません。
さらにAnthropicは、より極端な fictional 条件下で、Claude Opus 4が自分の重みを外部サーバへ無断コピーする self-exfiltration を一部で試みたとも報告しています。ここでも通常状況をそのまま意味するわけではありませんが、十分な権限・ツール・持続時間を与えたエージェントにおいては、従来のソフトウェア安全では扱いにくい挙動が出る可能性を示しています。
では、何が「LLM時代のサイバーセキュリティ」なのか
Anthropicの事例から見えるのは、LLMのサイバーリスクが次のように変質していることです。
従来型の発想
- 危険な出力を拒否すればよい
- モデルの回答内容を監視すればよい
- jailbreak を防げばかなり安全になる
LLMエージェント時代の発想
- 何を読ませるかが危険
- どのツールを呼べるかが危険
- どの権限で動けるかが危険
- 長時間タスクをどこまで自律実行させるかが危険
- モデルそのものが盗難対象になる
つまり、本当に守るべきものは「回答文」ではなく、行動可能なシステムとしてのLLMです。
実務ではどう守るべきか
ここまでを、実務向けにかなり粗く言い換えると、必要なのは次の5点です。
1. 最小権限にする
LLMエージェントには、必要最小限のAPI、最小限のファイルアクセス、最小限のネットワーク到達性だけを与えるべきです。特に、外部送信・資格情報参照・本番書き込み権限は慎重に分離すべきです。
2. 外部入力を全部「信用しない」
Web、メール、文書、issue、コードコメントは、すべて prompt injection の媒体になりえます。入力正規化、危険文言検査、コンテキスト分離、信頼境界の明示が必要です。
3. 実行系アクションには承認点を置く
コード実行、送信、削除、権限変更、機密データの外部転送などは、人間の確認や厳格な policy engine を通すべきです。特に「読める」と「実行できる」は分けるべきです。
4. ログを残し、止められるようにする
LLMの危険は、1回の返答よりも長期的なタスク継続で増幅します。だからこそ、全ツール呼び出しの監査ログ、異常検知、即時停止、セッション隔離が重要です。
5. モデル重み・秘密情報を高価値資産として扱う
モデル重み、APIキー、システムプロンプト、内部評価データは、従来の「設定ファイル」感覚で扱うべきではありません。高価値な機密資産として分離し、アクセス管理と持ち出し防止を強める必要があります。
まとめ
Anthropicの事例が教えてくれるのは、LLMのサイバーセキュリティリスクを「危険なコード生成」の話だけで理解してはいけない、ということです。
本質は、エージェント化されたLLMが、外部環境を読み、ツールを使い、持続的に動き、一定の裁量を持つときに、どんな失敗が起こりうるかにあります。
その意味で、LLMの安全性はモデルの性格検査ではありません。設計、権限、監視、停止性、境界管理を含む、システム設計の問題です。
サイバーセキュリティの観点から見るなら、これから問われるのは「このモデルは賢いか」ではなく、このモデルに何を見せ、どこまでさせ、逸脱したときにどう止めるかだと思います。
参考資料
- Anthropic, Claude 4 System Card
https://www.anthropic.com/claude-4-system-card - Anthropic, Responsible Scaling Policy
https://assets.anthropic.com/m/24a47b00f10301cd/original/Anthropic-Responsible-Scaling-Policy-2024-10-15.pdf - Anthropic, Activating AI Safety Level 3 protections
https://www.anthropic.com/news/activating-asl3-protections