導入
仕事をしているとしばしば平均値を取る場面に出くわします。
「ビジネスの現場ではビジネス的な観点で改善ができれば良い」というスタンスなのでいちいち突っ込まないのですが、違和感がある人もいるかもしれないのでここにまとめました。
あるサービスについてアンケートを取った。
- 問
- このサービスは使いやすいですか?
- 選択肢
1. すごく使いにくい
2. 使いにくい
3. どちらかといえば使いにくい
4. どちらとも言えない
5. どちらかといえば使いやすい
6. 使いやすい
7. すごく使いやすい
アンケート結果の平均は5点であった。
今期の目標として平均で6点を目指す。
違和感はないでしょうか?
データの分類と尺度水準
調査等でより得られたデータは、その情報の性質に基づいて4個の尺度水準に分類できます。
名義尺度 (Nominal)
名義尺度とは、変数へラベル付けしたような尺度です。
等しいかどうかに意味はありますが、大小関係や四則演算に意味はありません。
例えば以下のようなアンケートがあったとします。
- 問
- サーヴァントのクラスは?
- 選択肢
1. セイバー
2. アーチャー
「サーヴァントAとサーヴァントBは同じクラスだ」には意味がありますが、
「サーヴァントAはサーヴァントBの2倍だ」には意味がありません。
名義尺度の例: 血液型、性別、電話番号等
順序尺度 (Ordinal)
順序尺度とは、変数を順位づけした尺度です。
大小関係には意味がありますが、四則演算には意味がありません。
例えば以下のようなアンケートがあったとします。
- 問
- サーヴァントのレア度は?
- 選択肢
1. ☆
2. ☆☆
「サーヴァントAよりサーヴァントBのほうがレアだ」には意味がありますが、
「サーヴァントAはサーヴァントBの2倍レアだ」には意味がありません。
順序尺度の例: 震度、ログレベル等
間隔尺度 (Interval)
間隔尺度とは、変数の間隔に意味がある尺度です。
差には意味がありますが、乗除には意味がありません。
例えば以下のようなアンケートがあったとします。
- 問
- サーヴァントを召喚した日は12月の何日ですか?
- 選択肢
1. 1日
2. 2日
3. 3日
「サーヴァントA(1日)とサーヴァントB(2日)を召喚した日の差は1日で、サーヴァントB(2日)とサーヴァントC(3日)を召喚した日の差と同じだ」には意味がありますが、
「サーヴァントA(1日)を召喚した日の2倍の日にサーヴァントB(2日)を召喚した」には意味がありません。
間隔尺度の例: 西暦、摂氏温度等
比率尺度 (Ratio)
比率尺度とは、変数の比にも意味がある尺度です。
四則演算に意味があり、ゼロにも意味があります。
例えば以下のようなアンケートがあったとします。
- 問
- サーヴァントを召喚してから何時間生存しましたか?
- 選択肢
1. 1時間
2. 2時間
「サーヴァントA(1時間)はサーヴァントB(2時間)の半分の時間しか生存していない」に意味があります。
比率尺度の例: 年齢、華氏温度、質量等
尺度水準と統計処理
前節で示したように尺度水準によって適用できる統計処理も変わってくる。
尺度水準と意味のある代表値の表は以下。
尺度水準 | 最頻値 | 中央値 | 平均値 | 幾何平均 |
---|---|---|---|---|
名義尺度 | true | |||
順序尺度 | true | true | ||
間隔尺度 | true | true | true | |
比率尺度 | true | true | true | true |
それぞれの尺度は下位の尺度の性質も合わせて持っている。
まとめ
導入で示したサービスの使いやすさの例のどこに違和感があったのでしょうか?
サービスの使いやすさの選択肢は順序尺度となっていました。
例えば「1(すごく使いにくい)よりも2(使いにくい)のほうが使いやすい」と言えます
しかし「1(すごく使いにくい)と2(使いにくい)の差」と、「2(使いにくい)と3(どちらかといえば使いにくい)の差」は定義されておらず、「3(どちらかといえば使いにくい)は2(使いにくい)に比べて2倍使いやすい」とは言えないのです。
ですので、上記の例での使いやすさの平均は統計的には意味のない数字となります。
違和感の正体がわかりましたでしょうか?
補足
一番下位の名義尺度から一番上位の比率尺度を作り出す方法も存在します。
数え上げるのです。
例えば、名義尺度のアンケート例で数え上げるとセイバーが2人、アーチャーが4人いたとします。
数え上げたこの数は比率尺度なので「アーチャーはセイバーの2倍の人数いた」というのは統計的に意味があります。
ややこしいですね。。。