データ分析とは
データ分析 ≠ 数値計算
データ分析 = データから問題を改名するプロセス
ステップ:
1、データを収集する
2、数値計算
3、問題を解明する
・意味のあるデータ分析をするためには、ITや分析手法だけでなく、データから問題を解明するプロセスを構想する力が必要。
・分析の価値 = 意思決定の寄与度 ✖️ 意思決定の重要性
例:販売予測の分析を行う場合
意思決定の寄与度:販売予測がどれだけ投資判断に影響を与えるか
(誤差50%よりも誤差3%の方が投資の判断材料としての価値は高いため寄与度が高い)
意思決定の重要性:投資額
データ分析の成果
メイン: 何が分かったか、それは意思決定にどう役立つか
付帯成果物: データ分析の説明(結果の正しい解釈に必要)
プレゼン・報告する際は、意識する。
良い分析をしても意思決定者が採用するかが重要
・費用対効果
システム開発する場合に投資額を回収できるか
人材育成に活用する場合、金銭換算が難しい
・心理的な壁
従来のやり方を変えたくないという心情
分析をする能力だけでなく、それをビジネスに使わせていくコミュニケーションが重要。
費用対効果を納得してもらう説明
現場の熟練者に同感してもらう説明
など
意思決定者が注意すべきこと
1、不確実性の軽視
分析は100%正確ではない。将来を完璧に予測することはできない。
2、分析への過剰期待
データ分析で提供できるのは意思決定の一部だけであることが多い。特に定性的な問題の分析には限界がある。
また、分析には前提条件がある。例:過去1年間の販売状況にもとづけば〜
前提条件を無視し、結果だけ解釈するのは危険である。
3、結果への事前期待
こういう結果が出て欲しいと思い、結果が思わしくなかった際、やり方を変えるなど恣意的な分析はよろしくない。
分析モデル:
現実の複雑な問題を単純な問題に変換したもの。
良い分析モデルは現実をよく再現したものであるが、それでも完全に再現することはできない。
例えば、ビールの売り上げを気温や降水量、曜日など説明変数をどれだけ多くしたとしても人の好みは千差万別であり、全てにあてはまるモデルを作ることは不可能だからである。
また、説明変数が多すぎても過学習のリスクもあるため、闇雲に増やせば良いものでもない。
ブラックスワン:
リーマンショックは経済学者でも予想ができなかった。つまり、モデルに組み込めなかった一例であり、ノーベル経済学賞を受賞した学者が参画していたヘッジファンドでさえ、多額の損失を出した。
ビッグデータ
ビッグデータが取得できるようになって何が変わったか。
部分計測から全数計測へ
データが限られる場合、母集団の一部だけをサンプリングして計測していたが、データが増えたことにより全数を計測することができ、それにより全体現象の挙動パターンを直接理解できるようになった。