More than 1 year has passed since last update.

Cyber Threat Intelligence のためのNLP技術調査

Last updated at 2023-06-14Posted at 2023-06-14

はじめに

サイバー脅威の増加に伴い、サイバーセキュリティ情報（マルウェア、インシデント、脅威情報など）を効率よく収集するニーズが高まっています。
これに伴い、次世代の情報収集技術「Cyber Threat Intelligence（CTI：サイバー脅威インテリジェンス）」が注目されています。
本稿では、Cyber Threat Intelligence のためのNLP技術調査結果を報告します。

調査対象

今回は、IEEE ISI（Intelligence and Security Informatics）で発表された論文をベースに、関連論文を洗い出しました。

調査の流れは以下の通りです。

IEEE ISIの過去３回（2019~2021）の発表論文をリスト化
リストのうち、今回テーマに関連しそうなタイトルをピックアップ
2.ピックアップされた論文の引用文献・被引用文献に対し、今回テーマに関連しそうなタイトルをピックアップ
アブストラクトを確認し、今回テーマに関連しそうな論文をピックアップ
4.でピックアップされた主要論文60件に対し、主要アルゴリズム・タスク・検証対象の観点で整理

調査結果

CTIの全体概要

CTIの全体概要を以下の図に示します。（引用：What are the attackers doing now? Automating cyber threat intelligence extraction from text on pace with the changing threat landscape: A survey（ArXiv 2021））

データソースへのユニークID付与
データの整形
整形データへのラベル付与
学習・分析
構造化データへの整形
アプリケーション適用

ここでポイントとなるのは、「1. データソースへのユニークID付与」で対象とするデータ（主要ドメイン）および「4. 学習・分析」のタスク（主要タスク）です。
次節で詳細を説明していきます。

主要ドメイン

検証対象ドメインごとに傾向が異なるため、アプローチもドメインごとに検討するのが好ましい傾向にあります。

主要タスク

CTIxNLPの主要タスクは主に４種類に分かれます。上段ほど前処理として扱われることが多い傾向にあります。

タスクとドメインの関係

タスクとドメインで2軸を作り、関連論文の件数を記入しました。
ドメインの構造度に応じて、得意なタスクが異なる傾向にあることがわかります。

オープンデータ

オープンデータについてもいくつか公開されていました。
脅威情報レポート系や記事系のデータセットが多く、Twitter系は少ない傾向にあります。
また、ハッカーコミュニティ向けデータセットは存在しないようです。

データセット名	タスク	ドメイン内訳	URL
auto-labeled-corpus	意味抽出（自動ラベル付与されたもの）	脅威情報レポート（CVE/NVDレポート）	https://github.com/stucco/auto-labeled-corpus
twitter-cyberthreat-detection	脅威情報検知	Twitter （ツイートIDのみ付与されているため、自分で再収集が必要。）	https://github.com/ndionysus/twitter-cyberthreat-detection
CTI-reports-dataset	固有表現抽出	CTIレポートをタスク向けに整備したデータセット	https://github.com/nlpai-lab/CTI-reports-dataset
Annotation corpus of cybersecurity event in news articles	意味抽出（イベントタイプ注釈）	ニュース記事へのイベントタイプ注釈済みデータセット	https://github.com/Ebiquity/CASIE
MALOnt	不明	脅威情報レポート	https://github.com/shoron-dutta/MALOnt-1
CyberBlogDataset	不明	ブログ	https://github.com/UMBC-Onramp/CyEnts-Cyber-Blog-Dataset
CVE (Common Vulnerabilities and Exposures) dataset	不明	脅威情報レポート（CVEレポート）	https://www.kaggle.com/datasets/andrewkronser/cve-common-vulnerabilities-and-exposures

調査結果まとめ

今回の調査結果をまとめます。

タスクとドメイン
- 脅威情報レポート系や記事系を対象とする研究では、タグ付与および上位タスクである固有表現抽出の事例が多い。
- SNS系やハッカーコミュニティ系を対象とする研究では、脅威情報検知の事例が多い。これはセキュリティ情報以外の情報が含まれやすいため、前処理としてフィルタリングを行う重要性が高いためと考えられる。
オープンデータ調査
- 脅威情報レポート系や記事系のデータセットがほとんどであり、タグ付与（意味抽出）や固有表現抽出タスク向けに整備されている。
- Twitterを対象としたデータセットは存在するものの、脅威情報検知向けデータセットであり、タグ付与はされていない。
- ハッカーコミュニティ系で有力なデータセットは存在しない。

おわりに

今回のサーベイを通してCyber Threat Intelligence をめぐるNLP技術の傾向を掴むことができました。今回の成果は、新たなCyber Threat Intelligence技術の開発に活用していきたいと思います。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

Cyber Threat Intelligence​ のためのNLP技術調査​