はじめに
サイバー脅威の増加に伴い、サイバーセキュリティ情報(マルウェア、インシデント、脅威情報など)を効率よく収集するニーズが高まっています。
これに伴い、次世代の情報収集技術「Cyber Threat Intelligence(CTI:サイバー脅威インテリジェンス)」が注目されています。
本稿では、Cyber Threat Intelligence のためのNLP技術調査結果を報告します。
調査対象
今回は、IEEE ISI(Intelligence and Security Informatics)で発表された論文をベースに、関連論文を洗い出しました。
調査の流れは以下の通りです。
- IEEE ISIの過去3回(2019~2021)の発表論文をリスト化
- リストのうち、今回テーマに関連しそうなタイトルをピックアップ
- 2.ピックアップされた論文の引用文献・被引用文献に対し、今回テーマに関連しそうなタイトルをピックアップ
- アブストラクトを確認し、今回テーマに関連しそうな論文をピックアップ
- 4.でピックアップされた主要論文60件に対し、主要アルゴリズム・タスク・検証対象の観点で整理
調査結果
CTIの全体概要
CTIの全体概要を以下の図に示します。(引用:What are the attackers doing now? Automating cyber threat intelligence extraction from text on pace with the changing threat landscape: A survey(ArXiv 2021))
- データソースへのユニークID付与
- データの整形
- 整形データへのラベル付与
- 学習・分析
- 構造化データへの整形
- アプリケーション適用
ここでポイントとなるのは、「1. データソースへのユニークID付与」で対象とするデータ(主要ドメイン)および「4. 学習・分析」のタスク(主要タスク)です。
次節で詳細を説明していきます。
主要ドメイン
検証対象ドメインごとに傾向が異なるため、アプローチもドメインごとに検討するのが好ましい傾向にあります。
主要タスク
CTIxNLPの主要タスクは主に4種類に分かれます。上段ほど前処理として扱われることが多い傾向にあります。
タスクとドメインの関係
タスクとドメインで2軸を作り、関連論文の件数を記入しました。
ドメインの構造度に応じて、得意なタスクが異なる傾向にあることがわかります。
オープンデータ
オープンデータについてもいくつか公開されていました。
脅威情報レポート系や記事系のデータセットが多く、Twitter系は少ない傾向にあります。
また、ハッカーコミュニティ向けデータセットは存在しないようです。
データセット名 | タスク | ドメイン内訳 | URL |
---|---|---|---|
auto-labeled-corpus | 意味抽出(自動ラベル付与されたもの) | 脅威情報レポート(CVE/NVDレポート) | https://github.com/stucco/auto-labeled-corpus |
twitter-cyberthreat-detection | 脅威情報検知 | Twitter (ツイートIDのみ付与されているため、自分で再収集が必要。) | https://github.com/ndionysus/twitter-cyberthreat-detection |
CTI-reports-dataset | 固有表現抽出 | CTIレポートをタスク向けに整備したデータセット | https://github.com/nlpai-lab/CTI-reports-dataset |
Annotation corpus of cybersecurity event in news articles | 意味抽出(イベントタイプ注釈) | ニュース記事へのイベントタイプ注釈済みデータセット | https://github.com/Ebiquity/CASIE |
MALOnt | 不明 | 脅威情報レポート | https://github.com/shoron-dutta/MALOnt-1 |
CyberBlogDataset | 不明 | ブログ | https://github.com/UMBC-Onramp/CyEnts-Cyber-Blog-Dataset |
CVE (Common Vulnerabilities and Exposures) dataset | 不明 | 脅威情報レポート(CVEレポート) | https://www.kaggle.com/datasets/andrewkronser/cve-common-vulnerabilities-and-exposures |
調査結果まとめ
今回の調査結果をまとめます。
-
タスクとドメイン
- 脅威情報レポート系や記事系を対象とする研究では、タグ付与および上位タスクである固有表現抽出の事例が多い。
- SNS系やハッカーコミュニティ系を対象とする研究では、脅威情報検知の事例が多い。これはセキュリティ情報以外の情報が含まれやすいため、前処理としてフィルタリングを行う重要性が高いためと考えられる。
-
オープンデータ調査
- 脅威情報レポート系や記事系のデータセットがほとんどであり、タグ付与(意味抽出)や固有表現抽出タスク向けに整備されている。
- Twitterを対象としたデータセットは存在するものの、脅威情報検知向けデータセットであり、タグ付与はされていない。
- ハッカーコミュニティ系で有力なデータセットは存在しない。
おわりに
今回のサーベイを通してCyber Threat Intelligence をめぐるNLP技術の傾向を掴むことができました。今回の成果は、新たなCyber Threat Intelligence技術の開発に活用していきたいと思います。