目的
・データ分析…とはいうけれど、どんなデータを収集すべきなのか?
・基礎的なデータの扱いについて
データ収集の基礎知識
【基本的なデータ分析の流れ】
分析モデルⅠ:データサイエンスサイクル
課題発見、データ収集、探索的データ分析、解析・推測、提案・結果共有(最初に戻る)
分析モデルⅡ:CRISP-DM(クリスプ)
循環型モデル
不適切な処理があると後の工程に影響する
どこか一つでもで誤ると影響がのちのすべてのサイクル工程に波及する
例えば…
▼課題発見
Q.野菜が手軽に摂取できる味噌汁の具材は?というアンケート
▼データ収集
アンケート結果
A.キャベツ、白菜、ナス…など
▼探索的データ分析(統計処理)
野菜が最も支持
わかめが不人気という結果
▼解析・推測
キャベツが売り上げ1.2倍予測
▼提案
キャベツの売り上げ料の検討
※これ自体不適切なデータ収集方法
まず仮説を決める
ここがきれいに決まってないとどんなに良いデータでも意味なし
例.
データサイエンスへの関心を調べる
>「関心」を調べる仮説は?
数式で表すと…y= a + b x
目的変数をどの説明変数で説明するのか、が重要
目的変数:関心度
説明変数:社会人歴、属性
データ収集の手順
1対象者、サンプルサイズの決定
→全数調査、標本調査など
2調査票の作成
3調査方法の決定
→対面、WEB、インタビュー調査
4テスト調査の実施(ここまでが調査設計)
→専門用語があるか、文章は一意に解釈できるか
5実査
6データ化(前処理)
※このデータ収集が作業工程ではやや負荷が高い
データ収集時の誤差、落とし穴
・サンプリング誤差(標本誤差)
母集団と調査対象の間に発生する誤差。
数量的に評価可能。コストを減らせば軽減可
例えば日本人全員対象にしたが、東京都民のみになった、など
・非サンプリング誤差(非標本誤差)
数量的な評価が困難
例えば、日本人全員が対象をしたがWEB調査をしたがWEBができない人は調査できない場合など
効果的なアンケートの作成方法
ヒト特有の判断傾向が存在する
例えば、デフォルトの回答項目をてきとうに選んでしまうとか
全部の回答を「どちらでもない」と選択するとか
ヒューマンエラーなど
質の高い回答を得るには答えやすい設計が必要
▼設問の作り方
キャリーオーバー効果
質問を作る際の注意点
前の質問が次の質問の回答に持ち越される現象
誘導尋問的に後の質問に影響する
例
問1.毎回予習をしましたか?
問2.学習内容を習得できたか?
■対策法
質問が並ばないようにする
別の質問をはさむ
アンカリング効果
事前情報で推定させると、事前情報に近い値で推定される
例えば質問に平均価格500円です。新製品はいくらならいいか?など
■対策法
情報を与えない
実は対策しても引っかかりやすい現象
ハロー効果
過剰な説明で回答を誘導すること
→○○大学推薦の△をあなたも利用したいと思いますか?
本の推薦帯とかよく利用されてる
■対策法
余計な情報は書かない
黙従傾向
一方の立場を強調してその立場の回答へ誘導する
増税に賛成ですか?
→大抵反対になる
■対策法
両論併記
社会的望ましさ
社会的規範が影響する内容
電話、対面調査では注意
■対策法
匿名性のある調査をする
参考リンク
感想
・データ分析にあたって、データ収集の段階での調査にも設計が重要
・キャリーオーバー効果とかアンカリング効果、転職系アンケートとかでも身に覚えがある…
・これデータ分析の知識がわかっても忙しいときとかてきとうに応えそう
→調査時間、調査時期などでも変数変わりそう
・データ調査側の設問設計によって、適切ではない回答データになる場合もある。
・いかに一意で回答しやすい、それでいて不適切な意味で誘導的ではない設問を設計するのが大事