0
0

0から統計の勉強 箱ひげ図と幹葉表示

Last updated at Posted at 2024-09-14

学習サイト

統計web

箱ひげ図

データがどのあたりの値に執しているかを一目で捉えるためのグラフ
↓ 男性15人の体重を測定した結果

No 体重 [kg]
1 52
2 55
3 65
4 80
5 73
6 63
7 68
8 59
9 60
10 57
11 61
12 77
13 79
14 54
15 110

上記の結果を箱ひげ図にすると以下のような箱ひげ図が作られる。

image.png

この箱ひげ図を確認すると、以下のことが容易に確認できる

  • 最小値 = 52
  • 最大値 = 110

パーセンタイル

  • データを小さい順で並べた時、ある数値がデータの小さい方から見て何%の位置にあるかを表すもの
  • 最小値は0、最大値は100を表す
  • Nパーセンタイルは、データ全体をN%と100-N%で分ける値

image.png

四分位数

  • 25%(全体の1/4の部分) = 25パーセンタイル = 第一四分位数
  • 50%(全体の2/4の部分 = 全体の1/2の部分) = 50パーセンタイル = 第二四分位数
  • 75%(全体の1/4の部分) = 75パーセンチタイル = 第三四分位数
  • 5数要約
    • 最小値、第一四分位数、中央値、第三四分位数、最大値の5つの値の総称
  • 範囲
    • 最大値から最小値を引いたもの

image.png

image.png

四分位数の値を箱ひげ図に当てはめると以下の通りになる

image.png

箱ひげ図とデータの数

四分位数によってデータは次の4つに区分できる

  • 区間D
    • ひげの上端(最大値)から箱の上端(第三四分位数)まで
  • 区間C
    • 箱の上端(第三四分位数)から箱の中央の線(中央値)まで
  • 区間B
    • 箱の中央の線(中央値)から箱の下端(第一四分位数)まで
  • 区間A
    • 箱の下端(第一四分位数)からひげの下端(最小値)まで

image.png

区間A, B, C, Dの4つの区間の中にはそれぞれ同じ数だけのデータが入っている
しかし、同じ個数であっても、その区間の長さが異なることから、データのばらつき具合を知ることができる

例えば、区間Bと区間Dでは、区間Bの方が区間が短いことからデータが集中していることがわかる
また箱の高さは、全データの半分のデータを表すことから、およそ57から78の範囲に全体の半分のデータが存在することがわかる

外れ値の扱い

外れ値とは、データの分布において、他の観測地から大きく外れた値のこと

外れ値は、測定ミスや異常があって観測された場合などが考えられるため、データの解釈を困難にさせることがあるため注意が必要

幹葉表示(みきはひょうじ)

  • データの値そのもを用いて作成するヒストグラムに似た図のこと
  • 幹葉図ともいう

例えば「27, 30, 33, 33, 37, 41, 45」というデータがあった場合、幹葉表示は次のようになる

2 7
3 0 3 3 7
4 1 5
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0