この記事は freeeデータに関わる人たち Advent Calendar 2020 19日目のエントリーです。
概要
freeeでデータアナリストをしています。
今回はアンケートデータの集計について、注意した方が良い事例に出会ったので紹介したいと思います。
事例
データ部門に所属するAさんは、オンライン忘年会の実施を任されることになりました。食事は一括で発注することにしましたが、どんな料理を用意すれば良いかが悩みの種です。そこで、社内に好きな食べ物アンケートがあったので利用することにしました。
データ部門と他のメンバーの寿司を比較すると、43.8%と38.8%で5ポイントの差があります。Aさんは「どうやらデータ部門は他のメンバーより寿司が好きなようだ」と結論づけて寿司を発注するのでした。
(※実際の事例は寿司とは関係ありません。業務上の意思決定を上記のようなアンケート結果で考えていた例を元にしています。)
問題点
サンプルサイズが小さい? そういった話ではありません。具体的なアンケート票を見てみましょう。
そう、こちら、ラジオボタンでなくチェックボックスなのです。すなわち1ユーザーが複数回答している可能性があります。それがどうして問題かというと、このデータを先の円グラフで表してデータ部門とそれ以外で比較すると、何を比較しているのかよく分からなくなるためです。
もう少し具体的にいうと、例えば、もしデータ部門がそれ以外のメンバーに比べてラーメンに大量のチェックを入れていた場合、同じ割合で寿司にチェックが入っても、データ部門の寿司にチェックした割合が小さくなってしまいます。
解決策
では、単純に比較できないで終わりなのでしょうか?
発想を転換して集計の方法を変えてみましょう。以下のようなアンケートだったと想定して集計し直します。(この変換は先ほどのアンケート結果があれば可能です。)
このように1項目ずつ「はい」にチェックが入っているか否かで「チェック」か「未チェック」かに分類すれば、それぞれの項目のチェックが独立しているという前提において、例えば「寿司をチェックした人の割合に差があるかないか」の検定には持ち込むことができます。
あとは、心置きなくカイ二乗検定やフィッシャーの正確確率検定(サンプルサイズが小さい場合)などを行って有意差があるか確認しましょう。
まとめ
- そもそも複数回答OKのアンケートで回答の割合を出すことをオススメしません
- さらにその割合をサンプル同士比較することは危険なのでやめましょう
- みんな寿司が好き