先日は要約統計量の可視化をおこない、箱ひげ図と散布図の混合プロッティングをしてみましたが、ここからデータを詳しく追っていきましょう。
箱ひげ図の見方
箱ひげ図 (boxplot, BP) はデータの散らばり具合を示すグラフのひとつで、 2012 年から学習指導要領、高校数学 I 「データの分析」において取り上げられています。高校数学の必修範囲です。
箱には全データの半数 (25% 〜 75%) までが含まれます。したがいまして、箱の範囲内にあるデータはその集団を代表するデータの集まり、そこから外れたひげの示すデータがやや特殊なデータとみなすことができます。こういった観点からデータの特徴を明らかにしていきます。
箱の分割線 (= 中央値) が箱のどの位置にひかれているか、箱の位置は全体のどのような範囲にあるか、ひげの末端はどこに位置するか、外れ値はどれくらいあるかということを見ていきます。
上の例では時系列データのある一時期において、いつもより高い値に観測されたデータが一部存在していることが伺えます。
細部を目視する
細かい特徴を目視で追うにあたり、いくつかのツールがありますが特にポピュラーなのは表計算ソフトを使う方法です。自由ソフトウェアとしては LibreOffice 、商用のソフトウェアとしては Excel などが有名です。
結局のところ手法やツールに頼っても最終的には人間の判断を必要としますので、これらのツールを使って特徴の正体を明らかにしてきます。
手法を駆使しながら、人間の目で見て推測可能な仮説を立てていくことになります。
外れ値を検出する
外れ値とは「他の値から大きく外れた値」のことです。大きく言うとたとえば
- 金融・経済 … 株価の上昇や下落など景気の変動予測につながる値
- 工学・製造 … 生産ラインでの不良品検出
- 医薬・バイオ … 薬効の有無、病原の発現など
- Web … 障害の予測、攻撃の検知など
といったように多くの分野で応用されます。
標準偏差による検出
データの分布を正規分布に従うと仮定したとき、標準正規分布で平均値から標準偏差の 2 倍または 3 倍離れた値を外れ値とみなす方法です。
多重比較法
多群のデータにおける互いに有意な差がある平均を探索する分散分析、またそれと併用する Tukey の範囲検定があります。これは 2 つの平均のより大きなものからより小さなものを引き、それをデータの標準偏差で除算する方法です。
Tukey の検定は次式に従います。
q_s = \frac {(\mu_A - \mu_B)} {\sigma}
スミルノフ・グラブス (Smirnov-Grubbs) 検定
データ集合に正規分布を仮定、自由度 n-2 の t 分布の α / n の 100 パーせんタイルを t としたときに
\frac {(n-1)^t} {\sqrt{n(n-2)+nt^2}}
を有意な差とみなす方法です。これは標本数 n 有意水準 α の片側棄却検定によっておこなわれます。
まとめ
Tukey 法は検出力が強く、スミルノフ検定は外れ値検出の代表的手法です。いずれにせよ何の目的のためにどのようなデータを検出するかを明らかにしながら、さまざまな方法でデータを調査していく必要があります。