OpenStreamのAdventCalendarの10日目です。
本記事では、とあるデータから計算された四分位数から、そのデータのかたちを推測することについて書きます。
##なぜ
世の中では、いろんな調査がされています。
そして、調査の結果をまとめたものとして、平均値や、中央値や、四分位数や、標準偏差などの値が公開されることがあります。
(せめて、ヒストグラムがあると、かなりデータのかたちがわかるのですが、調査する項目がとても多いため、紙面の都合で省かれたりしていると思われます)
そのときに、公開された数値だけを、調査の結果としてとらえるより、中央値や四分位数や標準偏差からデータのかたちを推測することで、調査した対象のデータが意味することがもっと見えるようになります。
##平均値や四分位数が公開されているものとして
IPA SEC ソフトウェア開発データ白書2018-2019などは、いろんな調査項目に対して「平均値」「標準偏差」「最小値」「最大値」「中央値」「第1四分位数」「第3四分位数」などが公開されています。
ソフトウェア開発データ白書は生データが公開されてない、かつ、データサイズが大きいため、
本記事では、データサイズが小さい架空のデータで、説明を進めます。
##データの説明
とあるグループで、「スマートデバイスの所持数」を調査した結果をまとめたものが以下の値です。
データサイズ | 平均値 | 標準偏差 | 最小値 | 第1四分位数 | 中央値 | 第3四分位数 | 最大値 |
---|---|---|---|---|---|---|---|
26 | 2.256 | 4.423 | 1 | 3 | 4 | 5.75 | 10 |
※各値の定義を確認したい方はこちらをお勧めします。
##中央値や四分位数からわかること
これらの値からわかることは、
- 「最小値と第1四分位数の間」と「第1四分位数と中央値の間」と「中央値と第3四分位数の間」が狭い
- 中央値より平均値が小さい
です。
そこから推測できるのは、データの範囲は1~10ですが、分布が小さい値のほうに寄っているということです。
正直これらの値からは、データの山が一つであることは、確定できませんが、
もし、データの山が一つであれば、右に裾を長く引いた形であると推測できます。
##ヒストグラムで見ると
では、生データからヒストグラムにしたものを見てみましょう。
ヒストグラムからも、「分布が小さい値に寄っていること」と「右に裾を長く引いている」ことが確認できると思います。
##まとめ
上記のように、平均値や四分位数からある程度のデータのかたちが推測できます。
本記事では、生データに基づいたヒストグラムで答え合わせをしましたが、
推測した時に、手書きで良いので、データのかたちを書いて、メモリもつけてみると、かなりデータのかたちがわかるようになります。