17
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

本記事はリンクアンドモチベーションAdvent Calendar 2023の11日目の記事です。

はじめに

私はリンクアンドモチベーションのデータサイエンティスト・アナリストとして働いています。

これまでは、主に、弊社コンサルタントの経験に基づき仮説を立て、データ分析を行ってきました。

しかし、最近は、新機能や新規プロダクト開発に携わることが増え、仮説のない問題に取り組むことが多くなりました。

少ない経験ではありますが、仮説がないデータ分析で、仮説を作っていくために大事だと思っているポイントをお伝えします。

データ分析には2種類ある

そもそも、データ分析には「仮説検証型」と「仮説探索型」という二つの主要なアプローチがあります。

  • 仮説検証型分析:明確な仮説を持ち、それをデータで検証
  • 仮説探索型分析:データから新たなパターンやトレンドを見つけ出し、仮説を生み出す

また、KJ法で有名な川喜田二郎は研究することについて、著書の中で「実験科学の前に野外科学が必要だ」と述べています。

このプロセスはW型問題解決モデルという形で、野外科学によって仮説を集め、実験科学によって仮説を立証するまでの流れを説明しています。

一般的にデータ分析というと「仮説検証型」を想起しますが、検証するための仮説を集めるフェーズも存在し、「仮説探索型」に振り分けられます。

そのため、これから取り組む分析が「仮説検証型」なのか「仮説探索型」なのか見極めることが重要になります。

仮説探索型は難しい

ただし、分析が「仮説検証型」なのか「仮説探索型」なのか見極めることができたとしても、万事解決とはいきません。

なぜなら、「仮説検証型」と「仮説探索型」では、分析の性質、進め方が異なるためです。

では、「仮説探索型」において、どのような困難があるでしょうか?

考察の方向性が不明確

仮説探索型分析では、分析後の方向性が明確でなく、結果を見てからでないと決定が難しいことが多いです。

これは、仮説検証型のステップが

仮説構築 → データ収集 → 分析 → 考察

であるのに対し、仮説探索型は

データ収集 → 分析 → 考察 → 仮説構築

となるためです。

つまり、仮説探索型では、仮説を持たずに進めることとなるため、考察の段階で具体的な問いを定めることが困難な場合があります。

特に、分析対象についてのドメイン知識が乏しく、そもそものデータから発想が湧きにくい場合は顕著にこの問題が起こります。

バイアスとの戦いがある

仮説探索型分析では、分析結果の考察によって仮説構築をしますが、その自由度が高いため、
分析者のバイアスや先入観が無意識にデータ解釈に影響を及ぼすことがあります。

このバイアスには大きく分けて3つの原因があると思っています。

  1. 認知バイアス:データから洞察やパターンを見つける過程が主観的解釈に依存し、結果に影響を与える可能性があります。
  2. 確証バイアス:分析者が自らの信念や期待を裏付けるデータやパターンを無意識に探す傾向があります。
  3. 選択バイアス:特定のデータセットや変数を好意的に扱い、結果に偏りを生じさせることがあります。

データ取得の範囲を最適化し、統計的検証を行うことで選択バイアスは回避できますが、
認知バイアスと確証バイアスは考察の自由度が増すほど発生しやすくなります。

観察によって仮説探索の乗り越える

では、どのようにして仮説探索を乗り越えると良いでしょうか?

前述の川喜田二郎のW型問題解決モデルによれば、観察を通じて情報を集め、KJ法で整理し、仮説を考案するプロセスが提案されています。

そのため、観察を通じて情報を整理し、

データ収集 → 分析 → 観察 → 考察 → 仮説構築

というふうに、分析と考察の間に「観察」を挟むことで、明示的に考察前に事実情報を整理することができ、考察を容易にすることができると思います。

また、考察前に事実情報をまとめることでバイアスが入る可能性も減らすことができます。

観察のチェックポイント

では、どのようにすると観察によって、考察のための情報収集ができるようになるでしょうか?

私がこれまで経験してきて重要だと思ったポイントは以下の4点です。

  • どのような分布であるか?
    分布の形状を分析し、データの特性や似たような分布の現象から仮説を見つけ出します。
  • 周期性・トレンドはあるか?(時系列データの場合)
    周期性や長期トレンドを確認し、時間とともに変化する要因から仮説を見出します。
  • 共通点はあるか?
    データセット内の共通特徴やパターンを探し、関連性や原因の仮説を作成します。
  • 外れ値はあるか?
    通常範囲から逸脱するデータポイントを特定し、それらが示唆する異常やエラーから仮説を考察します。

おわりに

仮説探索型分析の需要が増える中で、効率的な観察手法を開発することが重要です。

また、分析中の自己効力感を保つためにも、チェックポイントをマイルストーンとして設定し、一つずつクリアしながらメンタルを保つ効果もあるなと思いました。

参考文献

川喜田二郎『発想法 改版 - 創造性開発のために

西尾泰和『エンジニアの知的生産術 ──効率的に学び、整理し、アウトプットする

17
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
17
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?