More than 3 years have passed since last update.

マルウェアに対する機械学習の利用

マルウェア解析

Posted at 2021-04-18

目的

マルウェアの解析にはどのようなものがあるのか？
マルウェアに使用されている技術にはどのようなものがあるのか？
機械学習はどのように利用されているかを知る。

参考

・Zero-day malware detection using transferred generative
adversarial networks based on deep autoencoders
をもとに記述していく。
・初めてのマルウェア解析
・STAMINA:Scalable Deep Learning Approach for Malware Classification

背景・既存の検査手法

論文中の記載によれば、

The Symantec Intelligent organization stored 44 million new samples just in 2015

とあり、日々新しいマルウェアが生み出されている。

サイバー攻撃の最近の動向等についての中では国内のサイバー攻撃の例が挙げられている。

このような攻撃から我々のPCをどのようにセキュリティーソフトは守っているいのか？

①静的解析

ファイルを実行させずに分析する手法。
メリット:高速
デメリット:亜種に対応できない可能性がある

・ファイル形式の判別
Windows実行ファイル.exe .dll .com .drv .sys（PEファイルという）かどうかを判別する。拡張子は変更して見た目をだますことが可能であるため、ファイルシグニチャと呼ばれるファイルの最初の2バイトにMZ（AD 5A)がついているかを確認する。

・文字列の抽出
攻撃者がファイルを作成したり、ドメイン名を変更、どこかへ接続を試みるなどをしている場合は、文字列としてファイル名、ドメイン名、URL,IPアドレス、攻撃コマンド、などが文字列として含まれている可能性があるため文字列の抽出を試みる。

・ハッシュ値の計算
既存のマルウェアの場合、ファイルの内容からハッシュ値が算出されている。それらのハッシュ値と検査対象のファイルのハッシュ値が同じかどうかを判定する。別の場所に自分自身を別の名前でコピーしたりするマルウェアが存在するため、名前は違うが同じ動作をするものの特定に役立つ。MD5,SHA1,SHA256などがデファクトスタンダード。

典型的な１２個のマルウェアのパターン

・ファジーハッシュ
類似したマルウェアには屡次したハッシュ値が計算されるため類似したマルウェアの特定に利用する。

・インポートハッシュ
ライブラリ、使用しているAPIの名前などでハッシュ値を計算する.関連したマルウェアが特定できる。

②動的解析

仮想環境や閉鎖環境でファイルの動作を監視して見分ける方法。
メリット：シグネチャ（特有のコードやハッシュなど）を変えたり、暗号化して検知から逃れているが、ウイルスの最終動作は変わらないため実行させればウイルスかどうか分かる。

デメリット：時間がかかる、リソースを消費する

難読化手法

・シーザー暗号
単純にある値分増減させる手法
赤線で囲われた箇所が+2や-2されている。

・Base64
Asciiコードを二進数に直して、特定bit数ずつ対応するテーブルの文字に置き換える
取得した情報が何かを暗号化したりするのにも使う。
Base64

・XORエンコーディング
あるキー（1～255）とXORをとりエンコード
元2： 0000 0010
key4: 0000 0100
　　 0000 0110

・マルチバイトXORエンコーディング
キーがマルチバイトになるため全探索が厳しくなる

・パッカー
プログラムを圧縮し、難読化する。
シグネチャとして特定されやすいコードの部分を圧縮し難読化することで検出から逃れる。
実行段階で圧縮箇所を解凍し正常に実行するようにしている。
実行フローが変わる。
コード難読化コンパイラツール

サブルーチンの並び替え
実行処理部分のアドレスを変えることで検出を逃れる

ゼロデイ攻撃

「ゼロデイ攻撃」とは、新たな脆弱性（セキュリティホール）が発見されたときに、問題の公表や修正プログラムが提供される前に行われるサイバー攻撃のことです。対策を取られる日を1日目（ワンデイ）と考え、それより前に行われるので0日目＝ゼロデイと呼ばれています。

ゼロデイ攻撃の多くが既存マルウェアをウイルスソフトに検知されないように改変されたものである。
ゼロデイ攻撃に対しては既存のウイルスソフトでは対応できないため、ゼロデイ攻撃に対す防御が必要になる。

tDCGANを利用したゼロデイマルウェアの検知

data

Kaggle Microsoft Malware Classification Challengeのデータを使用
バーナリーデータを二値化画像としてとらえる
k: データサイズ　C:列、R：行

マルウェアのType毎に画像を表示
赤：1　青：0

Train 9720
Test 1080
合計　10,800

DCGANの構造

UNSUPERVISED REPRESENTATION LEARNING
WITH DEEP CONVOLUTIONAL
GENERATIVE ADVERSARIAL NETWORKS

GANについて概念から実装まで　～DCGANによるキルミーベイベー生成～

tDCGANの構造

通常GANの学習ではgeneratorの学習とdiscriminatorの学習が必要になる。そのため、時間がかかる。
本論文ではDeep Autoencoder(DAE)を学習した後に（マルウェア画像を別の形式で表現するような状態）、encoder DAEをDCGANのgenerator として使用している。