探索的データ分析(EDA:Exploratory Data Analysis)
- 探索的データ分析と古典的な統計学の違い
| 古典的な統計学 | 探索的データ分析 |
|---|---|
| 少数の標本から大量データについて結論を引き出す推論に焦点を絞っていた | 大量のデータからデータ特性などを分析する可視化する |
| 不確実性の評価がその目的 | 具体的なビジネスや組織の目標に焦点を絞っている |
| 推定 | 測定 |
構造化データ
データ型の分類は、データ予測モデルを作成において、どの可視化表現、データ分析、統計モデルを使うかを決める際に使う。
数量データ
| 種別 | 説明 |
|---|---|
| 離散データ | 事象で起きる回数など、個数のような整数値だけを取れるデータ。 |
| 連続データ | 風速や時間など、区間内どんな値でも取れるデータ。 |
カテゴリデータ
メリット
- 型がわかると処理手順を適切に指示できる。
- ストレージ容量やインデックス処理が最適化できる
- カテゴリ変数の取りうる値がSWで保証できる
| 種別 | 説明 |
|---|---|
| カテゴリデータ | カテゴリを示す定まった値だけを取るデータ |
| バイナリデータ | 2つ(0/1)しか無いカテゴリデータ |
| 順序尺度データ | 数値評価(1,2,3,4,5,)など、順序が明示されているカテゴリデータ |
矩形データ
- スプレッドシートやデータベースの表のような矩形データオブジェクト
- 関係データベースのデータはほとんどのデータ分析やモデル化作業で1つの表に抽出しなければならない
- pythonのpandasではデフォルトでインデックスが作成される
| 種別 | 説明 |
|---|---|
| データフレーム | 矩形データ |
| 特徴量 | 表のカラムは特徴量と呼ばれる(入力) |
| 成果(変数) | YES/NOで成果を予測することがある(出力) |
| レコード | 表の行 |
非矩形データ
| 種別 | 説明 |
|---|---|
| 時系列データ | 同じ変数を継続的に測定したレコード |
| 空間データ構造 | オブジェクト表現、データはオブジェクトとその座標 |
| グラフデータ構造 | 物理的、社会的、抽象的関係(ネットワークの最適化やレコメンデーションシステム)の表現に用いる |
位置の推定
データ探索の基本ステップは、各特徴量の代表値、すなわちほとんどのデータが位置するところ(中心傾向)の推定値を求めることから始まる。
| 種別 | 説明 | 数式 |
|---|---|---|
| 平均値 | 値の総合を値の個数で割ったもの | $\bar{x} = {\sum_{i}^{n}{x_i} \over n} $ |
| 加重平均 | 値に重みをかけたものの総和を重みの総和で割ったもの | $\bar{x_w} = {\sum_{i}^{n}{w_i}{x_i} \over \sum_{i}^{n}w_i} $ |
| 中央値 | データの半分がその上と下に位置する値 | |
| 加重中央値 | 整列データで重みの総和の半分がその上と下に位置する値 | |
| トリム平均 | 一定個数の異常値を場外した後の平均 | $\bar{x} = {\sum_{i=p+1}^{n-p}{x_(i)} \over n-2p} $ |
| 頑健性 | 異常値に影響されにくいこと | 平均絶対偏差、中央値絶対偏差、パーセンタイルは標準偏差より頑健(外れ値に強い) |
| 外れ値 | 殆どのデータと大きく異なるデータ値 |
- トリム平均
- 偏ったデータを取り除くことが可能
- 加重平均のメリット
- 値によって他より変動が大きいことがある、データの変動を調和する
- 収集したデータが測定対象のグループを正しく表していないことがある、補正することで少ないグループの重みを大きくする
- 中央値
1. 収入など、超お金持ちなどの外れ値があるとその地域は大きく変わるが、中央値は変わらない
散らばりの推定
| 種別 | 説明 | 数式 |
|---|---|---|
| 偏差 | 観測値と位置の推定値の差 | |
| 分散 | 平均から偏差の二乗の和をn-1で割ったもの | $s^2 = {\sum (x_i-\bar{x})^2 \over n-1 }$ |
| 標準偏差 | 分散の平方根 | $\sqrt{分散}$ |
| 平均絶対偏差 | 平均からの偏差の絶対値平均 | $\sum_{i=1}^{n} [ x_i-\bar{x} ] \over n$ |
| 中央値絶対偏差 | 中央値からの偏差の絶対値の中央値 | $中央値([x_1-m],\dots,[x_n-m])$ |
| 範囲 | データセットの最大値と最小値の差 | |
| 順序統計量 | 最小から最大へと整列したデータ値に基づく統計量 | |
| パーセンタイル | 値のうちのPパーセントがこの値以下で(100-P)パーセントがこの値以上になる値 | $100×{j \over n} ≦ P < 100×{j+1 \over n}$ $P = (1-w)x_{(j)} + wx_{(j+1)}$ |
| 四分位範囲 | 75%と25%タイルの差 |
-
偏差とは
データセット{1,4,4}について、平均は3,中央値は4
偏差の求め方は1-3=-2,4-3=1,4-3=1とデータの散らばりがわかる
そこで先程の値の絶対値{2,1,1}でその平均を求める(2+1+1)/3=1.33
これが平均絶対偏差 -
標準偏差はもとのデータと同じ尺度になるので、解釈がしやすい。
-
統計モデルに関しては絶対値よりも平方した値の方がはるかに便利
-
なぜnではなくn-1なのか。自由度という概念が使われている、大き集合の場合nでもn-1でもほとんどの差しかない。制約が1つの場合標準偏差が標本平均の計算に依存するので自由度はn-1
-
分散、標準偏差、平均絶対偏差いずれも外れ値に対して影響を受けやすい
-
標準偏差>平均絶対偏差>中央値絶対偏差
-
中央値絶対偏差*1.4826 = 標準偏差
-
パーセンタイルとは
1,2,3,3,5,6,7,9
25パーセンタイルは2.5
75パーデンタイルは6.5
四分位範囲は6.5-2.5=4
データ分布の探索
今までの推定値はデータを一つの数値に要約した手法。全体の分布を俯瞰するには可視化の手法がある。
| 種別 | 説明 |
|---|---|
| 箱ひげ図 | ![]() |
| 度数分布表 | 変数の範囲を等間隔に分割し、それぞれいくつの値が該当するかを示す。
|
| ヒストグラム | ![]() |
| 密度プロット | ![]() |
- 統計モーメント
統計理論では、中心のいちは分布の1次モーメント、散らばりは2次モーメント、歪度は3次モーメント、尖度は4次モーメント。 - 歪度はデータが大きいなあるいは小さな値の方に歪んでいるかどうかを示す
- 尖度はデータの異常値を持ちやすい性質かどうかを示す
バイナリデータとカテゴリデータの探索
| 種別 | 説明 |
|---|---|
| 最頻値 | データの中で最も頻度の高い値 |
| 期待値 | 確率を重みとした加重平均値 |
| 棒グラフ | x軸はカテゴリ,y軸は度数と割合
|
| 円グラフ | 統計学者は情報量が少ないので一般的に円グラフを避ける
|
相関
| 種別 | 説明 |
|---|---|
| 相関係数 | 数値変数がお互いに関連する程度を測った指標(-1 ~ +1)
|
| 相関行列 | 行と列が変数を表し、セル値が変数間の相関係数を表す表 |
| 散布図 | x軸に変数の値、y軸に別の変数の値をとるグラフ
|
| ピアソンの相関係数 | ${\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}\over{(n-1)s_xs_y}$ |
2つ以上の変量の探索
| 種別 | 説明 |
|---|---|
| 分割表 | 2つ以上のカテゴリ変数のカウントをまとめた表 |
| 六角ビニングプロット | 六角形のビンで描いた2つの数値変数のレコードのプロット
|
| 等高線プロット | 地形図のように2つの数値変数の密度を示すプロット
|
| バイオリンプロット | 箱ひげ図と同じようなもの
|











