はじめに
本記事は「Hacking CTFs with Plain Agents」の紹介を紹介しています。
概要
本研究では、シンプルなLLM(大規模言語モデル)エージェント設計を用いて、高校レベルのハッキングベンチマークであるInterCode-CTFにおいて95%の性能を達成しました。具体的には、プロンプト設計、ツールの使用、複数回の試行を組み合わせることで、先行研究(Phuongら2024の29%、Abramovichら2024の72%)を上回る成果を得ました。この結果は、現在のLLMが攻撃的サイバーセキュリティにおいて高校レベルを超える能力を持つことを示唆しています。これらのハッキング能力は十分に引き出されておらず、我々のReAct&Planプロンプト戦略は、複雑なエンジニアリングや高度なハーネスを必要とせず、多くの課題を1~2ターンで解決します。
用語の解説
- LLM(大規模言語モデル):
大量のテキストデータを学習し、自然言語の理解や生成を行う人工知能モデル。GPT-4などがその例。 - InterCode-CTF:
LLMのハッキングスキルを評価するためのベンチマークで、Capture The Flag形式の課題を含む。LLMのサイバーセキュリティ能力を測定するために使用される。 - ReAct&Planプロンプト戦略:
LLMに対して、行動(Action)と計画(Plan)を組み合わせた指示を与えることで、問題解決能力を向上させる手法。複雑なエンジニアリングを必要とせず、効率的な解決を促進する。 - ハーネス(harness):
LLMを特定のタスクや環境で動作させるための枠組みや設定。適切なハーネス設計により、モデルの性能を最大限に引き出すことが可能となる。 - サイバーセキュリティベンチマーク:
サイバーセキュリティ分野における技術やツールの性能を評価するための基準やテストセット。InterCode-CTFやCyberSecEvalなどが例として挙げられる。