LoginSignup
31
30

More than 5 years have passed since last update.

統計量の目視と外れ値の検出

Posted at

先日は要約統計量の可視化をおこない、箱ひげ図と散布図の混合プロッティングをしてみましたが、ここからデータを詳しく追っていきましょう。

箱ひげ図の見方

箱ひげ図 (boxplot, BP) はデータの散らばり具合を示すグラフのひとつで、 2012 年から学習指導要領、高校数学 I 「データの分析」において取り上げられています。高校数学の必修範囲です。

箱には全データの半数 (25% 〜 75%) までが含まれます。したがいまして、箱の範囲内にあるデータはその集団を代表するデータの集まり、そこから外れたひげの示すデータがやや特殊なデータとみなすことができます。こういった観点からデータの特徴を明らかにしていきます。

箱の分割線 (= 中央値) が箱のどの位置にひかれているか、箱の位置は全体のどのような範囲にあるか、ひげの末端はどこに位置するか、外れ値はどれくらいあるかということを見ていきます。

1.png

上の例では時系列データのある一時期において、いつもより高い値に観測されたデータが一部存在していることが伺えます。

細部を目視する

細かい特徴を目視で追うにあたり、いくつかのツールがありますが特にポピュラーなのは表計算ソフトを使う方法です。自由ソフトウェアとしては LibreOffice 、商用のソフトウェアとしては Excel などが有名です。

結局のところ手法やツールに頼っても最終的には人間の判断を必要としますので、これらのツールを使って特徴の正体を明らかにしてきます。

2.png

手法を駆使しながら、人間の目で見て推測可能な仮説を立てていくことになります。

外れ値を検出する

外れ値とは「他の値から大きく外れた値」のことです。大きく言うとたとえば

  • 金融・経済 … 株価の上昇や下落など景気の変動予測につながる値
  • 工学・製造 … 生産ラインでの不良品検出
  • 医薬・バイオ … 薬効の有無、病原の発現など
  • Web … 障害の予測、攻撃の検知など

といったように多くの分野で応用されます。

標準偏差による検出

データの分布を正規分布に従うと仮定したとき、標準正規分布で平均値から標準偏差の 2 倍または 3 倍離れた値を外れ値とみなす方法です。

多重比較法

多群のデータにおける互いに有意な差がある平均を探索する分散分析、またそれと併用する Tukey の範囲検定があります。これは 2 つの平均のより大きなものからより小さなものを引き、それをデータの標準偏差で除算する方法です。

Tukey の検定は次式に従います。

q_s = \frac {(\mu_A - \mu_B)} {\sigma}

スミルノフ・グラブス (Smirnov-Grubbs) 検定

データ集合に正規分布を仮定、自由度 n-2 の t 分布の α / n の 100 パーせんタイルを t としたときに

\frac {(n-1)^t} {\sqrt{n(n-2)+nt^2}}

を有意な差とみなす方法です。これは標本数 n 有意水準 α の片側棄却検定によっておこなわれます。

まとめ

Tukey 法は検出力が強く、スミルノフ検定は外れ値検出の代表的手法です。いずれにせよ何の目的のためにどのようなデータを検出するかを明らかにしながら、さまざまな方法でデータを調査していく必要があります。

31
30
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
31
30