More than 3 years have passed since last update.

【異常検知】マハラノビス距離を嚙み砕いて理解する (1)

Last updated at 2022-05-21Posted at 2022-01-02

#1. はじめに

先日、井手剛さんのTwitterで注目すべき発言がありました。異常検知においてSOTAは、マハラノビス距離であるとの報告でした。素晴らしいと思いました。
＊井手剛さんは、名著入門機械学習による異常検知の著者です。

ということで、統計を専門的に学んでない方を対象に、このマハラノビス距離を嚙み砕いて説明したいと思います。

#2.マハラノビス距離とは
##2.1. マハラノビス先生
最初、マハラノビス先生について、お話させてください。活動時期がラマヌジャンと似ていて、なんだかインド生まれの変わった風貌を持つ天才数学者のイメージがありましたが、実写の写真を見るとかなりインテリのイメージでした。彼の功績を見ると、天才数学者であることは間違いありませんが。ケンブリッジ大学に留学した後、インドのコルカタに戻り、インド統計研究所(Indian Statistical Institute)で数理統計学の研究を続けました。

マハラノビス距離については、1936年のProceedings of the National Institute of Sciences of Indiaに“On the generalized distance in statistics”のタイトルでその概念を発表しました。他の数学天才の論文と違い、ちゃんと数式を展開しながら内容も説明してくれるので、理解しやすい論文ですので、ご興味のある方は直接に読んでみてください。個人的には、このGeneralized Distanceのタイトルにマハラノビス先生の自信が見えてました。汎用的な、あらゆる分野で適用できる素晴らしい距離の概念である。という先生の主張が「Generalized」という言葉に現れたと感じました。

##2.2.　マハラノビス距離

マハラノビス距離とは、多変数間の相関関係を取り入れて、既知のサンプルとの関係を明らかにする距離です。
(1) 多変数の意味は、1変数を含めた多変数を取り扱う問題に使える
(2) そして、その多変数間の相関関係を考慮した内容
(3) 既知のサンプルとの関係は、例えば品質管理において良品のデータの分布を持っている場合、それを基準に異常検知に使える基準が作れることを意味します。

よく使われるユークリッド距離とマハラノビス距離の違いを説明する図を下記に示します。

"出典：金子研究室HP＠明治大学"