0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

箱ひげ図を理解しよう_統計検定2級対策

Posted at

以下の統計検定2級対策動画で用いられているスライドの一部です。


1. まずは具体例から

難しい定義の前に、まずは具体的なデータを使って 箱ひげ図 がどのように作られるのかを見ていきましょう。

【問題】
あるクラスの生徒20人に対して実施した、50点満点の英語の小テストの結果があります。このデータから箱ひげ図を作成してください。

データ:
38, 25, 45, 33, 29, 18, 50, 35, 36, 41, 22, 39, 31, 27, 48, 15, 34, 42, 30, 4


Step 1: データを小さい順に並べ替える

まず、全てのデータを小さいものから大きいものへ並べ替えます。

4, 15, 18, 22, 25, 27, 29, 30, 31, 33, 34, 35, 36, 38, 39, 41, 42, 45, 48, 50

この作業が、データの分布を理解するための第一歩です。


Step 2: データの「真ん中」を探す (1)

次に、データの中心や区切りとなる値を求めます。

  1. 中央値 (第2四分位数 $Q_2$)
    • データ全体のちょうど真ん中の値です。
    • データは20個 (偶数) なので、中央にある2つの値 (10番目と11番目) の平均を取ります。

4, 15, 18, 22, 25, 27, 29, 30, 31, 33 , 34 , 35, 36, 38, 39, 41, 42, 45, 48, 50

$$
Q_2 = \frac{33 + 34}{2} = 33.5
$$


Step 2: データの「真ん中」を探す (2)

  1. 第1四分位数 ($Q_1$)
    • 中央値より 小さいデータ群 の、さらに中央値です。
    • データ全体の下から25%の位置にある値を示します。

下位データ群 (10個):
4, 15, 18, 22, 25 , 27 , 29, 30, 31, 33

$$
Q_1 = \frac{25 + 27}{2} = 26
$$


Step 2: データの「真ん中」を探す (3)

  1. 第3四分位数 ($Q_3$)
    • 中央値より 大きいデータ群 の、さらに中央値です。
    • データ全体の下から75%の位置にある値を示します。

上位データ群 (10個):
34, 35, 36, 38, 39 , 41 , 42, 45, 48, 50

$$
Q_3 = \frac{39 + 41}{2} = 40
$$


用語解説:四分位数

ここまでで求めた3つの値は 四分位数 と呼ばれ、データを4つの等しい部分に分ける目印となります。

  • 第1四分位数 ($Q_1$): データの下から 25% の点 (26)
  • 第2四分位数 ($Q_2$): データの中央、 50% の点 (33.5)
  • 第3四分位数 ($Q_3$): データの下から 75% の点 (40)

この 四分位数 が、箱ひげ図の「箱」の部分を形作ります。


Step 3 & 4: 外れ値を見つける準備

次に、データの中で極端に離れた値、つまり 外れ値 を見つける準備をします。

  1. 四分位範囲 (IQR) を計算する

    • 第3四分位数と第1四分位数の差で、データのばらつき具合を示します。
      $$
      IQR = Q_3 - Q_1 = 40 - 26 = 14
      $$
  2. 外れ値の範囲を計算する

    • この範囲の外にある値を外れ値とみなします。
    • 上限: $Q_3 + 1.5 \times IQR = 40 + 1.5 \times 14 = 61$
    • 下限: $Q_1 - 1.5 \times IQR = 26 - 1.5 \times 14 = 5$

Step 5: 外れ値と「ひげ」の範囲を特定

計算した範囲と、元のデータを比較します。

  • 下限の 5 を下回るデータは 4 のみです。
    外れ値は 4
  • 上限の 61 を上回るデータはありません。

これを基に、グラフの「ひげ」の端となる値を決めます。

  • ひげの下端: 外れ値を除いた中で最も小さい 15
  • ひげの上端: データの中で最も大きい 50

Step 6: 箱ひげ図を描画する

これまでの計算結果をすべてまとめると、以下のようになります。

要素
外れ値 4
ひげの下端 15
第1四分位数 ($Q_1$) 26
中央値 ($Q_2$) 33.5
第3四分位数 ($Q_3$) 40
ひげの上端 50

これらの値を元にグラフを描くと、 箱ひげ図 が完成します。


完成した箱ひげ図

image.png


2. 一般化と定義

ここまでの具体例を踏まえて、 箱ひげ図 の定義や各要素について一般化して見ていきましょう。

箱ひげ図とは?

データの分布を 5つの代表値 (最小値, $Q_1$, 中央値, $Q_3$, 最大値) を使って、視覚的に要約するグラフ。

特に、 複数のデータグループの分布を比較する 際に非常に強力です。


構成要素の定義 (1): 四分位数

  • 四分位数

    • データを小さい順に並べ、全体を4等分する位置にくる値。
  • 第1四分位数 ($Q_1$)

    • データ全体の下から25%の位置にある値。
  • 第2四分位数 ($Q_2$)

    • データ全体の中央 (50%)。 中央値 と同じ。
  • 第3四分位数 ($Q_3$)

    • データ全体の下から75%の位置にある値。

構成要素の定義 (2): 各部の名称

名称 説明
箱 (Box) 第1四分位数 ($Q_1$) から第3四分位数 ($Q_3$) までの範囲。データの中央50% が含まれる。
箱の中の線 中央値 ($Q_2$) を示す。
ひげ (Whisker) 箱から上下に伸びる線。データの全体の範囲 (外れ値を除く) を示す。
四分位範囲 (IQR) 箱の長さ ($Q_3 - Q_1$)。データのばらつきを表す。

$$
IQR = Q_3 - Q_1
$$


構成要素の定義 (3): 外れ値

  • 外れ値
    • 他の値から極端に離れている値。
    • 以下の範囲の外にある値として定義されるのが一般的です。

  • 上限: $Q_3 + 1.5 \times IQR$
  • 下限: $Q_1 - 1.5 \times IQR$

外れ値は、データ入力のミスや特異な事象を示唆することがあり、分析の際に注意を払うべき点を示してくれます。


箱ひげ図から読み取れること

箱ひげ図は、一目で多くの情報を伝えてくれます。

  • 中心の位置

    • 中央値(箱の中の線)を見れば、データの中心的な傾向がわかります。
  • ばらつきの大きさ

    • 箱の長さ (IQR) やひげの長さから、データがどの程度散らばっているかがわかります。
    • 箱が長いほど、データのばらつきが大きいことを意味します。

箱ひげ図から読み取れること (続き)

  • 分布の対称性

    • 箱の中の中央値の位置から、分布の偏り (歪み) を推測できます。
    • 中央値が箱の中央にあれば、分布は対称に近いです。
  • 外れ値の有無

    • 他のデータから大きく離れた値が存在するかどうかを、点で示してくれるため一目で確認できます。

まとめ

箱ひげ図 は、データの分布、中心、ばらつき、外れ値の有無を 簡潔に、そして 視覚的に 示すことができる強力なツールです。

本日の内容を理解し、ぜひ今後のデータ分析にご活用ください。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?