以下の統計検定2級対策動画で用いられているスライドの一部です。
「平均」だけで判断していませんか?
統計でよく使う代表値。
- 平均値
- 中央値
- 最頻値
これらを「いつ」「どのように」使い分ければ良いか、自信を持って言えますか?
適切な代表値を選ばないと、データを誤って解釈する危険があります。
STEP 1: 具体例から学ぼう
まず、具体的な例題を通して、それぞれの代表値がどのような性質を持つのかを体感的に理解しましょう。
例題1:エンジニアの学習時間
あるエンジニアチーム7人の、1週間の自己学習時間を調査しました。
データ: [8, 10, 7, 9, 11, 12, 63]
このチームの「平均的」な学習時間は、何時間と言えるでしょうか?
「平均値」で計算してみると…
まず、一般的に使われる平均値を計算します。
-
全ての値を合計
$8 + 10 + 7 + 9 + 11 + 12 + 63 = 120$ -
データの個数(7)で割る
$$
\text{平均値} = \frac{120}{7} \approx 17.14 \text{ 時間}
$$
結果は約17.1時間。しかし、ほとんどのメンバーは7〜12時間です。
一人だけ突出した値(外れ値) があるため、平均値が実態からズレてしまいました。
「中央値」で見てみると…
次に中央値を計算します。中央値は、データを並べたときの中央の値です。
-
データを小さい順に並べ替える
[7, 8, 9, 10, 11, 12, 63]
-
真ん中の値を選ぶ(データは7個なので4番目)
$$
\text{中央値} = 10 \text{ 時間}
$$
中央値は10時間。こちらの方が、チームの多くのメンバーの実感に近い値です。
中央値は、外れ値の影響を受けにくいという強力な特徴があります。
参考:データ数が偶数の場合の中央値
もしデータが6個 [2, 5, 6, 8, 10, 12]
だった場合…
- 中央に位置するのは
6
と8
の2つです。 - この場合の中央値は、2つの値の平均になります。
$$
\text{中央値} = \frac{6 + 8}{2} = 7
$$
例題2:よく使われるプログラミング言語
次に、開発チームで使われているプログラミング言語を調査しました。
データ: ["Python", "Go", "TypeScript", "Python", "Rust", "Python", "Go"]
このような数値ではないデータ(質的データ) で、「最も一般的なもの」を知るにはどうすれば良いでしょうか?
「最頻値」の出番!
最頻値は、データの中で最も頻繁に出現する値です。
- Python: 3回
- Go: 2回
- TypeScript: 1回
- Rust: 1回
このデータの最頻値は
Python
です。最頻値は、質的データにも使えるのが大きなメリットです。
STEP 2: 一般化と定義
具体例で見た3つの代表値を、定義としてまとめます。
代表値とは?
データセット全体の特徴を、一つの数値で要約して示す値のこと。データの中心的な傾向を把握するために用いられます。
平均値
- 定義: 全てのデータの値を合計し、その合計をデータの個数で割って算出される値。
-
メリット:
- 全てのデータ情報を反映する。
- 数学的に扱いやすい。
-
デメリット:
- 外れ値の影響を非常に受けやすい。
$$
\mu = \frac{x_1 + x_2 + \dots + x_n}{n} = \frac{\sum_{i=1}^{n} x_i}{n}
$$
中央値
-
定義: データを大きさの順に並べたとき、ちょうど中央に位置する値。
- データ数が奇数:中央の値
- データ数が偶数:中央2つの値の平均
-
メリット:
- 外れ値の影響を受けにくい。
-
デメリット:
- 平均値に比べて一部の情報が失われる側面がある。
最頻値
- 定義: データセットの中で最も頻繁に出現する値。
-
メリット:
- 質的データにも使える。
- 最も人気のある項目を把握できる。
-
デメリット:
- 存在しない場合や、複数存在する場合がある。
- データ数が少ないと安定しない。
どの代表値をいつ使うか?
適切な代表値を選択する鍵は、データの分布を理解することです。
1. 対称な分布
- 特徴: 左右対称の釣鐘型。
- 関係: 平均値 ≒ 中央値 ≒ 最頻値
- 使い方: どの代表値でも中心をうまく表現できる。一般的には平均値が使われる。
2. 右に裾の長い分布 (左に偏った分布)
- 特徴: 少数の極端に大きい値(外れ値)が存在する。(例:所得、学習時間)
- 関係(傾向): 最頻値 < 中央値 < 平均値
- 使い方: 平均値は外れ値に引っ張られるため、中央値が実態をより良く表す。
3. 左に裾の長い分布 (右に偏った分布)
- 特徴: 少数の極端に小さい値(外れ値)が存在する。(例:満点に近いテストの点数)
- 関係(傾向): 平均値 < 中央値 < 最頻値
- 使い方: 平均値は外れ値に引っ張られるため、この場合も中央値が適している。
使い分けのまとめ
代表値 | 特徴 | 適したケース |
---|---|---|
平均値 | 全ての値を反映するが、外れ値に弱い | 外れ値がなく、データが対称に近い分布をしている場合 |
中央値 | 外れ値の影響を受けにくい | 外れ値が存在する場合や、分布に偏りがある場合 |
最頻値 | 質的データにも使える | 最も人気のある項目を知りたい場合(カテゴリ分析) |
まとめ
-
平均値
- 全てのデータを考慮するが、外れ値に弱い。
-
中央値
- 外れ値に強く、データの中心的な傾向を見るのに適している。
-
最頻値
- 最も頻繁な値を示し、質的データにも使える。
結論
データ分析を行う際は、単一の代表値だけを見るのではなく、
- データの分布を確認する
- 分析の目的に応じて代表値を選ぶ
- 複数の指標を組み合わせて考察する
ことが、データの本質を正しく理解するための鍵となります。