Machine Learning by Stanford University WEEK9 のまとめ

アノマリー検出　（異常検知）

概要

既知のデータセットに対し、あるデータが異常値かそうでないかを判断する手法。データセンタでの異常値検知等の分野で実用されている。
モデルをp(x)、x(i)をi個目の変数セットと定義し、
p(x)<ε
の場合異常値と判断する。もし、異常値の検出率が高すぎる場合はεの値を減らす。

ガウス分布=正規分布の復習

ガウス分布の例は以下

μは平均値　σは分散　赤い部分の積分値は1となる。

確率pは以下の式で表せる。

μ、σは以下

アノマリー検出のアルゴリズム

データセットがガウス分布（正規分布）していると仮定して、トレーニングのデータセットから平均値μ、分散σを算出し、確率pがε以下であればアノマリー（異常値）と判断する。データの次元数分pを掛け合わせる。

アノマリー検出の適用　アルゴリズムの評価

アルゴリズムの評価には異常値(y=1)と正常値(y=0)にラベル付けされたデータを用いる。（具体例：0.2%の確率で異常値となるデータセットには60%をトレーニングデータセット、20%をクロスバリデーションデータセット、20%をテストデータセットとして用いる）
アルゴリズムの評価の手順は以下の通り
- モデル　p（x）にトレーニングセットx(i)を適用する。
- クロスバリデーションセット、テストセットに対して p(x)<εの場合はy=1(異常値）、p(x)>=εの場合はy=0(正常値）と予測させ、ラベル付けされたyとの差異を小さくする。

y=1のデータ数はy=0のデータに比べて非常に少なくなる（データが歪んでいる）ので、評価指標は予測とリコール、や、F1スコア　等を用いる(WEEK6の偏りのあるクラス分類の問題を参照)
また、適当なεの値はクロスバリデーションセットを用いて決定する。

教師あり学習 vs アノマリー検出

アノマリー検出の学習には、異常値、正常値のラベル付けしたデータがあるのだから、ニューラルネットワーク等教師あり学習をなぜ使わないのか？という疑問を持つかもしれない。どのような場合にアノマリー検出を使うべきか？

以下の場合アノマリー検出を利用する

異常値データ(y=1)が正常値データ(y=0)より極端に少ない場合
異常値の種類が多い場合。例えば飛行機の故障の種類等。

以下の場合教師あり学習を利用する

y=1,y=0両方のデータが十分にある場合

アノマリー検出で、どの変数を利用するか？

どの変数を利用するか？はアノマリー検出の精度を大きく左右する。
変数をプロットし、正規分布しているかどうかを事前にチェックする事が有効。
正規分布していない場合はlog(x)、√x等に変換する等して正規分布するように変数を置き換えるとアルゴリズムの精度が上がる。

また、アノマリー検出で異常値がうまく検出できない場合、検出に失敗したデータを分析し、新たな変数xを利用して再度試してみる事が有効。

アノマリー検出の拡張　

多変量ガウス分布

多変量ガウス分布は変数x(1),..x(i)を行列化して表現する。

これにより、変数間の相関を把握する事ができる。
μ、σの値と多変量ガウス分布のグラフの具体例は以下

多変量ガウス分布のアノマリー検出への適用

適用手順

通常のガウス分布 vs 多変量ガウス分布

通常のガウス分布を用いた場合、変数間に相関がある場合に新たな変数を作り出す必要があるが、多変量ガウス分布はその必要がない点がメリット。
ただし、計算コストが高くなる点はデメリット。変数の数n×n行列の計算をするので、例えば変数n = 10,000の場合は通常のアノマリー検出を使う方が現実的。また多変量ガウス分布にはトレーニングデータの数mが変数の数nよりも大きい(m>n)という数学的な条件がある点にも注意。