9
1

More than 5 years have passed since last update.

四分位数などから、データのかたちを推測する

Last updated at Posted at 2018-12-09

OpenStreamのAdventCalendarの10日目です。

本記事では、とあるデータから計算された四分位数から、そのデータのかたちを推測することについて書きます。

なぜ

世の中では、いろんな調査がされています。
そして、調査の結果をまとめたものとして、平均値や、中央値や、四分位数や、標準偏差などの値が公開されることがあります。
(せめて、ヒストグラムがあると、かなりデータのかたちがわかるのですが、調査する項目がとても多いため、紙面の都合で省かれたりしていると思われます)
そのときに、公開された数値だけを、調査の結果としてとらえるより、中央値や四分位数や標準偏差からデータのかたちを推測することで、調査した対象のデータが意味することがもっと見えるようになります。

平均値や四分位数が公開されているものとして

IPA SEC ソフトウェア開発データ白書2018-2019などは、いろんな調査項目に対して「平均値」「標準偏差」「最小値」「最大値」「中央値」「第1四分位数」「第3四分位数」などが公開されています。

ソフトウェア開発データ白書は生データが公開されてない、かつ、データサイズが大きいため、
本記事では、データサイズが小さい架空のデータで、説明を進めます。

データの説明

とあるグループで、「スマートデバイスの所持数」を調査した結果をまとめたものが以下の値です。

データサイズ 平均値 標準偏差 最小値 第1四分位数 中央値 第3四分位数 最大値
26 2.256 4.423 1 3 4 5.75 10

箱ひげ図にすると以下のようになります。
箱ひげ図.png

※各値の定義を確認したい方はこちらをお勧めします。

中央値や四分位数からわかること

これらの値からわかることは、
- 「最小値と第1四分位数の間」と「第1四分位数と中央値の間」と「中央値と第3四分位数の間」が狭い
- 中央値より平均値が小さい
です。
そこから推測できるのは、データの範囲は1~10ですが、分布が小さい値のほうに寄っているということです。
正直これらの値からは、データの山が一つであることは、確定できませんが、
もし、データの山が一つであれば、右に裾を長く引いた形であると推測できます。

ヒストグラムで見ると

では、生データからヒストグラムにしたものを見てみましょう。
ヒストグラム.png
ヒストグラムからも、「分布が小さい値に寄っていること」と「右に裾を長く引いている」ことが確認できると思います。

まとめ

上記のように、平均値や四分位数からある程度のデータのかたちが推測できます。
本記事では、生データに基づいたヒストグラムで答え合わせをしましたが、
推測した時に、手書きで良いので、データのかたちを書いて、メモリもつけてみると、かなりデータのかたちがわかるようになります。

参考情報

統計学習の指導のために(先生向け)基本用語集

9
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
9
1