How to Detect Criminal Threats Using DNS Analytics with Databricks - The Databricks Blogの翻訳です。
あなたはセキュリティの実践者、データサイエンティスト、あるいはセキュリティデータエンジニアです。あなたはDatabrikcsのプレゼンテーションLarge Scale Threat Detection and Response(大規模な脅威の検知および対応)を見て不思議に思いました。「自身のセキュリティオペレーションでどのようにDatabricksをトライしてみたらいいのだろう?」この記事では、パッシブDNS(pDNS)を用いたリモートアクセスによるトロイの木馬、および脅威インテリジェンスの検知をどのように行うのかを学びます。途中では、Delta、Spark、MLflowを用いて、どのようにDNSデータを格納、分析するのかを学びます。よく知っている通り、持続的標的型攻撃とサイバー犯罪者はDNSを悪用することで知られています。攻撃者はコマンドアンドコントロール、ビーコニング、攻撃者ドメインの解決のためにDNSプロトコルを使用します。これによって、アカデミーの研究者と業界グループはセキュリティチームに対して、脅威を捕捉、検知、調査、対応するために、DNSイベントを収集し分析することをアドバイスしています。しかし、すぐに分かることですが、これはそれほど簡単なことではありません。
DatabricksによるAgentTeslaRATの検知
以下のノートブックを用いることで、Agent Tesla RATを検知することが可能になります。Domain generation algorithms(DGA)、typosquattingに対する分析、URLhausによる脅威インテリジェンスのエンリッチメントを用いることになります。途中でDatabricksの以下のコンセプトを学びます。
- データ取り込み
- アドホック分析
- DSNクエリーのようなイベントデータのエンリッチ方法
- モデル構築
- バッチ、ストリーミング分析
なぜ、Databricksを使うのでしょうか?これは、セキュリティ分析において最も困難なことは分析ではないためです。あなたはすでに大規模DNSトラフィックログの分析は複雑であることを知っています。セキュリティコミュニティの同僚たちは、課題は大きく三つのカテゴリーに属すると述べています。
- デプロイメントの複雑性: DNSサーバーはどこにでもあります。クラウド、ハイブリッド、マルチクラウドのデプロイメントはデータの収集、単一のデータストア、デプロイメント全体にわたる一貫性のある分析の実施を困難なものにします。
- 技術の限界: レガシーなSIEM(Security Information and Event Management)とログ集積ソリューションは、ストレージのデータボリューム、分析、ML/AIワークロードに対してスケールすることができません。特に、脅威インテリジェントのエンリッチメントのようなデータの結合になると問題が顕著になります。
- コスト: SIEMやログ集約ソリューションシステムは、登録するデータのボリュームによって課金されます。膨大なSIEM/ログのライセンス費用、ハードウェア要件はDNS分析のコストを膨大なものにします。一つのクラウドサービスプロバイダーから別のプロバイダーへのデータ移行もまた、コスト、時間を消費するものとなります。クラウドにおけるハードウェアに対する事前コミットやオンプレミスにおける物理ハードウェアのコストは、セキュリティチームに対する障害となります。
これらの問題に対応するために、セキュリティチームはクラウド規模でデータを取り扱い、どこにあるデータでも分析でき、ネイティブでストリーミングとバッチをサポートし、コラボレーティブなコンテンツ開発機能を持つリアルタイムデータ分析プラットフォームを必要とします。そして、ハードウェアに対するコミットを回避するために、誰かがシステム全体の柔軟性を確保したいと考えたのであれば、これは非常に素晴らしいことだと思います!
以下が、分析を実行するためのDatabricksノートブックです。このノートブックをDatabricksコミュニティエディション(無料)やご自身のDatabricksデプロイメントで利用することができます。数多くの行数が含まれていますが、ハイレベルのフローは以下の通りとなります。
- AWS S3バケットからパッシブDNSデータを読み込む
- DNSに対するスキーマを指定して、Deltaにデータをロード
- 文字列マッチによるデータの探索
- DGA検知モデルの構築。typosquattingモデルの構築
- URLhausによる脅威インテリジェンスを用いたDGAとtyposquattingのアウトプットのエンリッチメント
- 分析の実行およびAgentTesla RATの検知
ノートブックのそれぞれのセクションにはコメントがあります。ご質問があればcybersecurity@databricks.comにご連絡いただければと思います。ご質問やノートブックを理解しやすく、デプロイしやすくするための提案を心待ちにしています。
是非、コミュニティエディションあるいはお使いのDatabricksアカウントにログインいただき、ノートブックを実行してみてください。フィードバックをお待ちしています。
こちらのリンクからコミュニティエディションのアカウントを作成することができます。その後で、ノートブックをインポートしてみてください。
- Databricksコミュニティエディションにアクセス
- 左のナビゲーションでworkspaceをクリック
- workspaceペインの空白部分を右クリックしてimportをクリック
- Import from URLを選択
- URLフィールドにリンクを貼り付け
実行するノートブックのインポート方法の詳細に関しては、こちらを参照ください。