#データ解析手順まとめ
参考文献
データ解析の実務プロセス入門
#データ解析手順
-
目的設定
↓ -
分析計画
↓ -
データ設計
↓ -
データ収集・保存
↓ -
データの前処理
↓ -
分析手法選択・適用
↓ -
分析結果の解釈
↓ -
施策の提案
↓ -
実施と検証
↓ -
振り返り
データ解析
- 状況把握
- 推定
- 予測
- 再現性
- 裏づけ
勘や経験による意思決定を裏づけする
ベテランの知識を組織全体の知識にできる
データ解析のアプローチ
仮説検証型
仮説をデータによって裏づけるというアプローチ
探索型
データから何らかの仮説を得るためのアプローチ
→ 探索的データ解析
※ 仮説検証型と探索型を反復して実施することもある
探索的データ解析の取り組み
-
分布確認
・ヒストグラム
・箱ひげ図 -
関係確認
・散布図
・相関分析 -
縮約
平均や合計などの処理でデータをまとめること -
層別化(スライシング)
データを様々な軸の様々な水準で区切り、層別にすることで、各層でデータの特徴を把握する -
詳細化(ドリルダウン)
データを様々な軸で詳細化
年データから月データなど、通年・各月・各週と異なる時間幅のデータの傾向を比較する手法 -
時系列化
データを時間軸で並べて折れ線グラフで可視化
可視化
大きさを比べる
・棒グラフ
分布を見る
・ヒストグラム
・箱ひげ図
量的変数の関係を見る
・散布図
時系列データを見る
・折れ線グラフ
時系列データの変化と分布を見る
・ロウソク足チャート
割合を見る
・帯グラフ
大きさの比とその内訳を見る
・積み上げ棒グラフ
質的変数の関係を見る
・クロス集計
・ヒートマップ
再表現
データに何らかの変換や計算を用いて理解しやすくする、あるいは違った側面から見られるようにすること。
要約統計量
・算術平均
・中央値
・最頻値
・幾何平均
データの各要素を乗算し、要素の個数でN乗根をとった値
・移動平均
合成データ
データ同士を組み合わせて作られる新しいデータ
尺度変換
データの尺度をより低位の尺度に変換することで、データを扱いやすくする
無名数化
データを無名数という単位を持たない値に変換することで、単位や大きさが異なるデータ間の比較を可能にする。
比、率、偏差値みたいなもの