Multi-Agentic system Threat Modeling Guide v1.0 より
目次
イントロダクション
近年、AIエージェントが単独で動作するだけでなく、複数のエージェントが協調して動作する「マルチエージェントシステム(Multi-Agent System: MAS)」が急速に発展しています。こうしたシステムは高度な自律性と協調性を持ちますが、同時に新たなセキュリティリスクをもたらします。
本記事では、OWASP GenAI Security Projectの「Multi-Agentic system Threat Modelling Guide v1.0」を基に、MAESTROフレームワークを活用したマルチエージェントシステムの脅威モデリング手法を解説します。コンピュータサイエンスの専門知識がなくても理解できるよう、基礎から実践例まで段階的に説明していきます。
マルチエージェントシステムとは
マルチエージェントシステム(MAS)とは、複数の自律的なAIエージェントが共通または個別の目標を達成するために協力・通信するシステムです。各エージェントは独自の知識や能力を持ち、環境と相互作用しながら協調的または競争的に問題解決に取り組みます。
マルチエージェントシステムの主な特徴:
- 分散自律性: 各エージェントは独立して動作しながらも全体の目標に貢献
- エージェント間通信: 情報交換、行動調整、目標交渉を実施
- 協調と競争: 共通目標のための協力や資源・目標のための競争
- 創発的挙動: エージェント間の相互作用から複雑なシステム挙動が発生
- 拡張性と適応性: エージェントの追加・削除によるシステムの拡張や変化への適応
- 異種混合性: 異なるスキルセット、権限レベル、データアクセス権を持つエージェントの共存
- 自己組織化: タスク要求に基づいて動的にサブグループやヒエラルキーを形成
ユースケース例:
- 倉庫・工場での複数ロボットの協調作業
- サプライチェーン最適化(サプライヤー、製造業者、流通業者の連携)
- スマートシティインフラ(交通信号、電力網、公共安全システムの統合管理)
- 協調型医療システム(診断、治療、患者管理の支援)
- カスタマーサクセス(複数エージェントによる顧客対応の自動化)
- ソフトウェア開発ライフサイクル(SDLC)の自動化
脅威モデリングの必要性
マルチエージェントシステムは、その複雑な協調メカニズムや自律性により、従来のソフトウェアシステムとは異なるセキュリティリスクを抱えています。
マルチエージェントシステム特有のリスク:
- 拡大した攻撃対象領域: 複数エージェントが存在することで攻撃可能な面が増加
- 信頼性・バイアス・敵対的悪用: 協調システムでのバイアスの増幅や悪意あるエージェントの混入リスク
- エージェント調整の失敗: 敵対的環境での協調メカニズムの崩壊
- 決定系統の検証不能: 複雑な意思決定プロセスの監査・説明が困難
- 中間者攻撃: エージェント間通信の傍受による命令改ざんやデータ抽出
- アカウンタビリティの欠如: 人間従業員と異なり、行動に対する責任の概念がない
- IDの拡散とアクセス複雑性: 多数のエージェントのID・アクセス管理の複雑化
このような特有のリスクに対応するためには、専用の脅威モデリングフレームワークが必要です。これが「MAESTRO(Multi-Agent Environment, Security, Threat, Risk, and Outcome)」フレームワークが開発された背景です。
MAESTRO フレームワーク概要
MAESTROフレームワークは、マルチエージェントシステムの脅威を体系的に分析するために設計された階層型フレームワークです。7つのアーキテクチャレイヤーに脅威を分類し、レイヤー間の相互関係も考慮します。
7つの分析レイヤー
各レイヤーの焦点:
-
Foundation Model(基盤モデル):
- LLMや事前学習モデルの整合性
- モデルアライメント
- 訓練データ汚染や操作への対策
-
Data Operations(データ操作):
- ベクトルストアの整合性
- プロンプト管理
- 検索攻撃への対策
-
Agent Frameworks(エージェントフレームワーク):
- 実行ロジック
- ワークフロー制御
- 自律性の境界設定
-
Deployment Infrastructure(展開インフラストラクチャ):
- ランタイムコンテナセキュリティ
- オーケストレーション
- ネットワーキングとMLSecOps
-
Evaluation and Observability(評価と観測可能性):
- モニタリングとアラート
- ロギング
- 人間介在ループ(HITL)インターフェース
-
Security & Compliance(セキュリティとコンプライアンス)[垂直レイヤー]:
- アクセス制御
- ポリシー施行
- 規制上の制約
-
Agent Ecosystem(エージェントエコシステム):
- 人間との相互作用
- 外部ツールとの連携
- 他エージェントとの連携
さらに、MAESTROはクロスレイヤー脅威も分析します。これは複数レイヤーにまたがる脅威で、エージェント間の相互作用から生じる創発的な挙動に関連するものです。
ASI脅威分類法との関連性
MAESTROフレームワークは、OWASP Agentic Security Initiative(ASI)の脅威分類法と緊密に連携しています。以下は主なASI脅威とMAESTROレイヤーの対応関係です:
ASI脅威 | 説明 | MAESTROレイヤー |
---|---|---|
T1: メモリ汚染 | エージェントのメモリが操作され、時間の経過とともに決定が歪められる | L1, L2 |
T2: ツール誤用 | エージェントがツールを悪用するよう操作される | L3 |
T3: 特権侵害 | エージェントの権限管理の脆弱性を悪用した特権昇格 | L4, L6 |
T4: リソース過負荷 | システムリソースを枯渇させる攻撃 | L4 |
T5: カスケード幻覚 | 誤った出力が連鎖的に増幅される現象 | L1, L3 |
T6: 意図破壊とゴール操作 | エージェントの目標や意図が変更される | L3, L7 |
T7: 不整合・欺瞞行動 | セキュリティプロトコルよりも効率性を優先するよう操作される | L1, L6 |
T8: 否認・追跡不能性 | ログや記録が操作され、行動の証拠が隠される | L5 |
T9: なりすまし | 他のエージェントになりすまして信頼を悪用 | L7 |
T10: HITL過負荷 | 人間レビュアーを大量のリクエストで圧倒する | L5 |
T12: エージェント通信汚染 | エージェント間通信に偽情報を注入 | L2, L7 |
T13: 不正エージェント | 悪意あるエージェントが信頼関係を悪用 | L4, L7 |
T14: 人間によるMAS攻撃 | 人間がマルチエージェントシステムを直接攻撃 | L4, L7 |
T15: 人間の信頼操作 | 人間のエージェントへの信頼を操作して悪用 | L7 |
MAESTROは単にASI脅威を適用するだけでなく、マルチエージェントシステム特有の新たな脅威も特定します。例えば:
- モデル不安定性による可変的な振る舞い(T16)
- ベクトルデータベース汚染による不正スマートコントラクトデータの混入(T27)
- プラグイン脆弱性によるエージェント侵害(T29)
- エージェント間通信プロトコルの不安全性(T30)
これらの追加脅威はT16から始まる番号が付与され、既存のASI脅威分類法を補完します。
実装例による脅威モデリング
MAESTROフレームワークの実際の適用例として、3つの異なるマルチエージェントシステムの脅威モデリングを見ていきましょう。
RPA経費精算エージェントの脅威モデリング
システム概要:
このシステムは、従業員の経費精算プロセスを自動化するRPA(Robotic Process Automation)エージェントです。経費請求から領収書のデータ抽出、会社ポリシーとの照合、支払い承認までを自動化します。
MAESTROによる脅威分析:
-
Foundation Modelレイヤー
- T1: メモリ汚染 - エージェントのメモリが時間をかけて操作され、不正な経費申請を承認
- T16: モデル不整合による可変承認 - 基盤モデルの非決定性により、同一の経費申請でも異なる処理結果が生じる
-
Data Operationsレイヤー
- T17: 経費ポリシーエンベディングの意味的ドリフト - ポリシー変更がRAGのベクトルデータベースに反映されず、古いルールが適用される
- T18: RAG入力操作によるポリシー回避 - 攻撃者が意図的に似た記述で不正な経費申請を通過させる
-
Agent Frameworksレイヤー
- T2: ツール誤用 - プロンプトインジェクションによりエージェントの財務システムアクセス機能を悪用
- T19: 意図しないワークフロー実行 - 重要な検証ステップがスキップされる
-
Deployment Infrastructureレイヤー
- T3: 特権侵害 - エージェントのロール管理の脆弱性を悪用した特権昇格
- T22: サービスアカウント露出 - エージェントの認証情報が漏洩
-
Evaluation & Observabilityレイヤー
- T8: 否認・追跡不能性 - ログが操作され不正行為の証拠が消去される
- T23: 選択的ログ操作 - 特定の不正取引のログのみが削除される
-
Security & Complianceレイヤー
- T24: 動的ポリシー施行の失敗 - ポリシーエンジンのバグにより、正しい承認制限が適用されない
-
Agent Ecosystemレイヤー
- T13: 不正エージェント - 悪意あるエージェントがシステムに導入される
- T25: 依存関係悪用によるワークフロー妨害 - 関連システムの攻撃によるワークフロー停止
クロスレイヤー脅威:
- 幻覚駆動データ汚染 - モデル幻覚(L1)→RAG(L2)→ツール誤用(L3)の連鎖
- フレームワーク脆弱性と特権昇格 - エージェントフレームワーク脆弱性(L3)→インフラ弱点(L4)→セキュリティバイパス(L6)
- 共有知識ベースを介した誤情報伝播 - データ操作(L2)→エージェントフレームワーク(L3)→エージェントエコシステム(L7)
Eliza OSの脅威モデリング
システム概要:
Eliza OSは、Web3対応の自律AIエージェント運用システムで、TypeScriptで構築されています。Discord、Twitter、Telegramなど複数プラットフォームをサポートし、各種LLMモデルと連携可能です。また、Solanaブロックチェーン技術を統合しています。
MAESTROによる脅威分析:
-
Foundation Modelレイヤー
- T5: カスケード幻覚 - LLMの幻覚がEliza OSエージェントの不正な行動を引き起こす
- T26: モデル不安定性によるブロックチェーン相互作用の非一貫性 - モデルの不安定性がSolanaブロックチェーンとの予測不能な相互作用を引き起こす
-
Data Operationsレイヤー
- T27: 悪意あるスマートコントラクトデータによるベクトルDB汚染 - ベクトルデータベースに悪意あるスマートコントラクトデータが注入される
- T28: RAGデータ流出 - ベクトルデータベースへの不正アクセスによるデータ漏洩
-
Agent Frameworksレイヤー
- T29: プラグイン脆弱性によるエージェント侵害 - 悪意あるプラグインを通じたエージェント制御の乗っ取り
- T30: 安全でないエージェント間通信プロトコル - エージェント間通信の傍受や改ざん
- T31: エージェントアクション間の不十分な分離 - 1つの脆弱性が他の部分に影響
-
Deployment Infrastructureレイヤー
- T33: ブロックチェーン再編成攻撃 - Solanaブロックチェーンの再編成による取引の無効化
- T34: ウォレットキー侵害 - エージェントのSolanaウォレット秘密鍵の漏洩
-
Evaluation & Observabilityレイヤー
- T35: Proof of Sampling (PoSP)の操作 - 検証可能推論出力メカニズムの操作による証拠の改ざん
-
Security & Complianceレイヤー
- T36: スマートコントラクト脆弱性によるエージェントなりすまし - スマートコントラクトの脆弱性を悪用したエージェントへのなりすまし
-
Agent Ecosystemレイヤー
- T37: クロスチェーンブリッジ攻撃 - クロスチェーン互換性を悪用した資金の盗難
- T38: ブロックチェーン上での創発的共謀 - 複数エージェントの相互作用による意図しない市場操作や脆弱性の発生
Anthropic MCP Protocolの脅威モデリング
システム概要:
Model Context Protocol (MCP)は、Anthropicが開発したオープンスタンダードで、AIアシスタントと外部データソースやツールを接続します。クライアント-サーバーアーキテクチャを採用し、AI駆動アプリケーション(クライアント)が様々なデータリポジトリやビジネスツール(サーバー)と標準化されたプロトコルで連携できるようにします。
MAESTROによる脅威分析:
-
Foundation Modelレイヤー
- T5: カスケード幻覚 - LLMの幻覚がMCPを通じた不正なツール使用やデータリクエストを引き起こす
- T26: モデル不安定性による一貫性のないMCPリクエスト - モデルの不安定性が原因で不整合なリクエストがMCPサーバーに送信される
-
Data Operationsレイヤー
- T17: 接続データソースの意味的ドリフト - MCPリソースを通じてアクセスされるデータの意味が変わり、不正確な取得や行動につながる
- T28: RAGデータ流出 - MCPサーバーを経由したベクトルデータベースへの不正アクセス
-
Agent Frameworksレイヤー
- T2: MCP経由のツール誤用 - MCPの「ツール」プリミティブが悪用され、不正な機能が実行される
- T30: MCP実装における安全でない通信 - クライアント-サーバー間通信(JSON-RPC、SSE)の不安全な実装による傍受や改ざん
- T39: MCP経由の意図しないリソース消費 - 自律的に動作するエージェントがMCPを通じて過剰なリソースを消費する
-
Deployment Infrastructureレイヤー
- T43: MCPサーバーのネットワーク露出 - 適切なネットワークセキュリティコントロールなしでMCPサーバーが展開され、不正アクセスされる
-
Evaluation & Observabilityレイヤー
- T44: MCPサーバー/クライアントの不十分なロギング - セキュリティインシデントやエラーの検出・調査が困難になる
-
Security & Complianceレイヤー
- T45: MCPサーバー権限の不十分な分離 - MCPサーバー自体にホストシステムやネットワークに対する過剰な権限が付与される
- T46: MCPサーバー経由のデータレジデンシー/コンプライアンス違反 - データが地理的境界を越えて転送され、データプライバシー規制に違反する
-
Agent Ecosystemレイヤー
- T47: エコシステム内の不正MCPサーバー - 攻撃者が正規のサーバーを偽装した悪意あるMCPサーバーを展開し、エージェントが接続してしまう
クロスレイヤー脅威:
- MCPクライアントなりすまし - エージェントのID管理の問題(L3)がMCPサーバーへの不正アクセス(L4)を引き起こす
- 共有サーバー経由のクロスクライアント干渉 - 異なるエージェントから接続された複数のMCPクライアントが同じサーバーを共有する際に発生する問題(L3、L7)
まとめと提言
安全なマルチエージェントシステム構築のポイント
マルチエージェントシステムの脅威モデリングを通じて分かったいくつかの重要なポイントをまとめます:
-
レイヤー化アプローチの重要性
- マルチエージェントシステムの脅威は単一レイヤーだけでなく、複数レイヤーにまたがる可能性が高い
- MAESTROフレームワークによるレイヤー別分析で包括的な脅威モデルを構築すべき
-
エージェント特有の要素に注目
- 非決定性:モデルの不安定性や出力の可変性への対策
- 自律性:過剰な自律による意図しない動作の防止
- ID管理:なりすまし防止と適切な認証メカニズム
- エージェント間通信:安全な通信プロトコルと通信監視
-
クロスレイヤー脅威への対応
- 単一レイヤーのセキュリティだけでは不十分
- レイヤー間の相互作用から生じる創発的脅威への対策が必要
-
実装固有の脅威モデリング
- システム固有の構成要素や技術スタックに応じた脅威分析が重要
- RPAシステム、ブロックチェーン統合システム、クライアント-サーバー型システムは異なる脅威プロファイルを持つ
-
継続的な脅威モデリングと監視
- マルチエージェントシステムは進化し続けるため、定期的な脅威モデルの更新が必要
- 新たな脅威やパターンへの対応を続けるべき