以下の統計検定2級対策動画で用いられているスライドの一部です。
1. まずは具体例から
難しい定義の前に、まずは具体的なデータを使って 箱ひげ図 がどのように作られるのかを見ていきましょう。
【問題】
あるクラスの生徒20人に対して実施した、50点満点の英語の小テストの結果があります。このデータから箱ひげ図を作成してください。データ:
38, 25, 45, 33, 29, 18, 50, 35, 36, 41, 22, 39, 31, 27, 48, 15, 34, 42, 30, 4
Step 1: データを小さい順に並べ替える
まず、全てのデータを小さいものから大きいものへ並べ替えます。
4, 15, 18, 22, 25, 27, 29, 30, 31, 33, 34, 35, 36, 38, 39, 41, 42, 45, 48, 50
この作業が、データの分布を理解するための第一歩です。
Step 2: データの「真ん中」を探す (1)
次に、データの中心や区切りとなる値を求めます。
-
中央値 (第2四分位数 $Q_2$)
- データ全体のちょうど真ん中の値です。
- データは20個 (偶数) なので、中央にある2つの値 (10番目と11番目) の平均を取ります。
4, 15, 18, 22, 25, 27, 29, 30, 31,
33 ,
34 , 35, 36, 38, 39, 41, 42, 45, 48, 50
$$
Q_2 = \frac{33 + 34}{2} = 33.5
$$
Step 2: データの「真ん中」を探す (2)
-
第1四分位数 ($Q_1$)
- 中央値より 小さいデータ群 の、さらに中央値です。
- データ全体の下から25%の位置にある値を示します。
下位データ群 (10個):
4, 15, 18, 22,
25 ,
27 , 29, 30, 31, 33
$$
Q_1 = \frac{25 + 27}{2} = 26
$$
Step 2: データの「真ん中」を探す (3)
-
第3四分位数 ($Q_3$)
- 中央値より 大きいデータ群 の、さらに中央値です。
- データ全体の下から75%の位置にある値を示します。
上位データ群 (10個):
34, 35, 36, 38,
39 ,
41 , 42, 45, 48, 50
$$
Q_3 = \frac{39 + 41}{2} = 40
$$
用語解説:四分位数
ここまでで求めた3つの値は 四分位数 と呼ばれ、データを4つの等しい部分に分ける目印となります。
- 第1四分位数 ($Q_1$): データの下から 25% の点 (26)
- 第2四分位数 ($Q_2$): データの中央、 50% の点 (33.5)
- 第3四分位数 ($Q_3$): データの下から 75% の点 (40)
この 四分位数 が、箱ひげ図の「箱」の部分を形作ります。
Step 3 & 4: 外れ値を見つける準備
次に、データの中で極端に離れた値、つまり 外れ値 を見つける準備をします。
-
四分位範囲 (IQR) を計算する
- 第3四分位数と第1四分位数の差で、データのばらつき具合を示します。
$$
IQR = Q_3 - Q_1 = 40 - 26 = 14
$$
- 第3四分位数と第1四分位数の差で、データのばらつき具合を示します。
-
外れ値の範囲を計算する
- この範囲の外にある値を外れ値とみなします。
- 上限: $Q_3 + 1.5 \times IQR = 40 + 1.5 \times 14 = 61$
- 下限: $Q_1 - 1.5 \times IQR = 26 - 1.5 \times 14 = 5$
Step 5: 外れ値と「ひげ」の範囲を特定
計算した範囲と、元のデータを比較します。
- 下限の 5 を下回るデータは 4 のみです。
→ 外れ値は 4 - 上限の 61 を上回るデータはありません。
これを基に、グラフの「ひげ」の端となる値を決めます。
- ひげの下端: 外れ値を除いた中で最も小さい 15
- ひげの上端: データの中で最も大きい 50
Step 6: 箱ひげ図を描画する
これまでの計算結果をすべてまとめると、以下のようになります。
要素 | 値 |
---|---|
外れ値 | 4 |
ひげの下端 | 15 |
第1四分位数 ($Q_1$) | 26 |
中央値 ($Q_2$) | 33.5 |
第3四分位数 ($Q_3$) | 40 |
ひげの上端 | 50 |
これらの値を元にグラフを描くと、 箱ひげ図 が完成します。
完成した箱ひげ図
2. 一般化と定義
ここまでの具体例を踏まえて、 箱ひげ図 の定義や各要素について一般化して見ていきましょう。
箱ひげ図とは?
データの分布を 5つの代表値 (最小値, $Q_1$, 中央値, $Q_3$, 最大値) を使って、視覚的に要約するグラフ。
特に、 複数のデータグループの分布を比較する 際に非常に強力です。
構成要素の定義 (1): 四分位数
-
四分位数
- データを小さい順に並べ、全体を4等分する位置にくる値。
-
第1四分位数 ($Q_1$)
- データ全体の下から25%の位置にある値。
-
第2四分位数 ($Q_2$)
- データ全体の中央 (50%)。 中央値 と同じ。
-
第3四分位数 ($Q_3$)
- データ全体の下から75%の位置にある値。
構成要素の定義 (2): 各部の名称
名称 | 説明 |
---|---|
箱 (Box) | 第1四分位数 ($Q_1$) から第3四分位数 ($Q_3$) までの範囲。データの中央50% が含まれる。 |
箱の中の線 | 中央値 ($Q_2$) を示す。 |
ひげ (Whisker) | 箱から上下に伸びる線。データの全体の範囲 (外れ値を除く) を示す。 |
四分位範囲 (IQR) | 箱の長さ ($Q_3 - Q_1$)。データのばらつきを表す。 |
$$
IQR = Q_3 - Q_1
$$
構成要素の定義 (3): 外れ値
-
外れ値
- 他の値から極端に離れている値。
- 以下の範囲の外にある値として定義されるのが一般的です。
- 上限: $Q_3 + 1.5 \times IQR$
- 下限: $Q_1 - 1.5 \times IQR$
外れ値は、データ入力のミスや特異な事象を示唆することがあり、分析の際に注意を払うべき点を示してくれます。
箱ひげ図から読み取れること
箱ひげ図は、一目で多くの情報を伝えてくれます。
-
中心の位置
- 中央値(箱の中の線)を見れば、データの中心的な傾向がわかります。
-
ばらつきの大きさ
- 箱の長さ (IQR) やひげの長さから、データがどの程度散らばっているかがわかります。
- 箱が長いほど、データのばらつきが大きいことを意味します。
箱ひげ図から読み取れること (続き)
-
分布の対称性
- 箱の中の中央値の位置から、分布の偏り (歪み) を推測できます。
- 中央値が箱の中央にあれば、分布は対称に近いです。
-
外れ値の有無
- 他のデータから大きく離れた値が存在するかどうかを、点で示してくれるため一目で確認できます。
まとめ
箱ひげ図 は、データの分布、中心、ばらつき、外れ値の有無を 簡潔に、そして 視覚的に 示すことができる強力なツールです。
本日の内容を理解し、ぜひ今後のデータ分析にご活用ください。