More than 5 years have passed since last update.

データ探索についての備忘録

Last updated at 2020-06-26Posted at 2020-06-26

探索的データ分析（EDA:Exploratory Data Analysis）

古典的な統計学	探索的データ分析
少数の標本から大量データについて結論を引き出す推論に焦点を絞っていた	大量のデータからデータ特性などを分析する可視化する
不確実性の評価がその目的	具体的なビジネスや組織の目標に焦点を絞っている
推定	測定

データ型の分類は、データ予測モデルを作成において、どの可視化表現、データ分析、統計モデルを使うかを決める際に使う。

種別	説明
離散データ	事象で起きる回数など、個数のような整数値だけを取れるデータ。
連続データ	風速や時間など、区間内どんな値でも取れるデータ。

メリット

種別	説明
時系列データ	同じ変数を継続的に測定したレコード
空間データ構造	オブジェクト表現、データはオブジェクトとその座標
グラフデータ構造	物理的、社会的、抽象的関係（ネットワークの最適化やレコメンデーションシステム）の表現に用いる

データ探索の基本ステップは、各特徴量の代表値、すなわちほとんどのデータが位置するところ（中心傾向）の推定値を求めることから始まる。

種別	説明	数式
平均値	値の総合を値の個数で割ったもの	$\bar{x} = {\sum_{i}^{n}{x_i} \over n} $
加重平均	値に重みをかけたものの総和を重みの総和で割ったもの	$\bar{x_w} = {\sum_{i}^{n}{w_i}{x_i} \over \sum_{i}^{n}w_i} $
中央値	データの半分がその上と下に位置する値
加重中央値	整列データで重みの総和の半分がその上と下に位置する値
トリム平均	一定個数の異常値を場外した後の平均	$\bar{x} = {\sum_{i=p+1}^{n-p}{x_(i)} \over n-2p} $
頑健性	異常値に影響されにくいこと	平均絶対偏差、中央値絶対偏差、パーセンタイルは標準偏差より頑健（外れ値に強い）
外れ値	殆どのデータと大きく異なるデータ値

トリム平均
1. 偏ったデータを取り除くことが可能
加重平均のメリット
1. 値によって他より変動が大きいことがある、データの変動を調和する
2. 収集したデータが測定対象のグループを正しく表していないことがある、補正することで少ないグループの重みを大きくする
中央値
　　1. 収入など、超お金持ちなどの外れ値があるとその地域は大きく変わるが、中央値は変わらない

種別	説明	数式
偏差	観測値と位置の推定値の差
分散	平均から偏差の二乗の和をn-1で割ったもの	$s^2 = {\sum (x_i-\bar{x})^2 \over n-1 }$
標準偏差	分散の平方根	$\sqrt{分散}$
平均絶対偏差	平均からの偏差の絶対値平均	$\sum_{i=1}^{n} [ x_i-\bar{x} ] \over n$
中央値絶対偏差	中央値からの偏差の絶対値の中央値	$中央値([x_1-m],\dots,[x_n-m])$
範囲	データセットの最大値と最小値の差
順序統計量	最小から最大へと整列したデータ値に基づく統計量
パーセンタイル	値のうちのPパーセントがこの値以下で（100-P）パーセントがこの値以上になる値	$100×{j \over n} ≦ P < 100×{j+1 \over n}$ $P = (1-w)x_{(j)} + wx_{(j+1)}$
四分位範囲	75%と25%タイルの差

偏差とは
データセット{1,4,4}について、平均は3,中央値は4
偏差の求め方は1-3=-2,4-3=1,4-3=1とデータの散らばりがわかる
そこで先程の値の絶対値{2,1,1}でその平均を求める(2+1+1)/3=1.33
これが平均絶対偏差
標準偏差はもとのデータと同じ尺度になるので、解釈がしやすい。
統計モデルに関しては絶対値よりも平方した値の方がはるかに便利
なぜｎではなくn-1なのか。自由度という概念が使われている、大き集合の場合nでもn-1でもほとんどの差しかない。制約が１つの場合標準偏差が標本平均の計算に依存するので自由度はn-1
分散、標準偏差、平均絶対偏差いずれも外れ値に対して影響を受けやすい
標準偏差>平均絶対偏差>中央値絶対偏差
中央値絶対偏差*1.4826 = 標準偏差
パーセンタイルとは
1,2,3,3,5,6,7,9
25パーセンタイルは2.5
75パーデンタイルは6.5
四分位範囲は6.5-2.5=4

今までの推定値はデータを一つの数値に要約した手法。全体の分布を俯瞰するには可視化の手法がある。

種別	説明
箱ひげ図
度数分布表	変数の範囲を等間隔に分割し、それぞれいくつの値が該当するかを示す。
ヒストグラム
密度プロット

種別	説明
最頻値	データの中で最も頻度の高い値
期待値	確率を重みとした加重平均値
棒グラフ	x軸はカテゴリ,y軸は度数と割合
円グラフ	統計学者は情報量が少ないので一般的に円グラフを避ける

種別	説明
相関係数	数値変数がお互いに関連する程度を測った指標(-1 ~ +1)
相関行列	行と列が変数を表し、セル値が変数間の相関係数を表す表
散布図	x軸に変数の値、y軸に別の変数の値をとるグラフ
ピアソンの相関係数	${\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})}\over{(n-1)s_xs_y}$

種別	説明
分割表	2つ以上のカテゴリ変数のカウントをまとめた表
六角ビニングプロット	六角形のビンで描いた２つの数値変数のレコードのプロット
等高線プロット	地形図のように２つの数値変数の密度を示すプロット
バイオリンプロット	箱ひげ図と同じようなもの