以下の統計検定2級対策動画で用いられているスライドの一部です。
1. 具体例から学んでみよう
統計学の代表値は、たくさんの数値を 「たった一つの値」 で表すための指標です。
まずは具体的な例を通して、代表値がどんなものか見ていきましょう。
- 平均値:WebサイトのPV数
- 中央値:従業員の通勤時間
- 最頻値:Tシャツの販売サイズ
例1:WebサイトのPV数と「平均値」
あるWebサイトの直近7日間のページビュー数を見てみましょう。
データ
[350, 380, 410, 390, 420, 360, 1500]
このデータの「普通の」PV数を知るために、よく使われる方法で計算してみます。
-
全ての値を合計する
$350 + 380 + 410 + 390 + 420 + 360 + 1500 = 3810$ -
合計をデータの個数(7)で割る
$3810 \div 7 \approx 544.3$
この計算で得られた 544.3 が平均値です。
平均値から見えること
計算結果は 平均 544.3 PV でした。
しかし、元のデータをよく見てみると…
[350, 380, 410, 390, 420, 360, 1500]
ほとんどの日が 350〜420 の範囲なのに、平均値はかなり高い数値です。
これは、7日目の 1500 という突出した値(外れ値)が、平均値を大きく引き上げているためです。
例2:通勤時間と「中央値」(データ数が奇数)
外れ値に強い代表値を見てみましょう。5人の従業員の通勤時間です。
データ: [25, 45, 18, 90, 32]
-
データを小さい順に並べ替えます。
[18, 25,32, 45, 90] -
ちょうど真ん中に来る値を探します。
データは5個なので、真ん中は3番目です。
この 32 が中央値です。
90分という外れ値があっても、影響を受けません。
「中央値」の求め方(データ数が偶数)
次は6人のお客様の客単価です。
データ: [850, 1200, 900, 780, 1500, 880]
-
データを小さい順に並べ替えます。
[780, 850,880, 900, 1200, 1500] -
真ん中は3番目と4番目の2つです。
この場合、2つの値の平均を計算します。
$(880 + 900) \div 2 = 890$
この 890円 が中央値です。
例3:Tシャツのサイズと「最頻値」
数値ではないデータにも使える代表値があります。
1日に売れたTシャツのサイズを見てみましょう。
データ: ['M', 'L', 'S', 'L', 'M', 'L', 'XL', 'M', 'L']
それぞれのサイズが何回出たか数えます。
- S: 1回
- M: 3回
- L: 4回
- XL: 1回
最も多く出現した L が最頻値です。
一番人気の商品を知りたい、といった場面で役立ちます。
2. 代表値の定義と特徴
ここまで見てきた具体例を、学術的な定義としてまとめてみましょう。
- 平均値
- 中央値
- 最頻値
平均値の定義
平均値は、全てのデータの値を合計し、その合計をデータの個数で割って算出される値です。
計算式
データが $x_1, x_2, \dots, x_n$ のとき、平均値 $\bar{x}$ は以下の式で計算されます。
$$
\bar{x} = \frac{x_1 + x_2 + \dots + x_n}{n} = \frac{\sum_{i=1}^{n} x_i}{n}
$$
特徴
- 全てのデータが計算に反映されます。
- 外れ値(極端な値)の影響を大きく受けます。
中央値の定義
中央値は、データを大きさの順に並べ替えたときに、ちょうど中央に位置する値です。
求め方
-
データが奇数個の場合
並べ替えた後、真ん中の順位の値をそのまま使います。 -
データが偶数個の場合
並べ替えた後、中央に位置する2つの値の平均値を計算します。
特徴
- 外れ値の影響を受けにくいです。
- データの分布が歪んでいる場合に、中心的な傾向を示すのに適しています。
最頻値の定義
最頻値は、データの中で、最も出現回数が多い値です。
特徴
- 質的データ(数値でないデータ)にも使えます。
- 最も人気のある項目を知りたい場合に便利です。
- 最も出現回数が多い値が複数ある場合、最頻値も複数になります。
- 全てのデータの出現回数が同じ場合、最頻値は存在しません。
3. 代表値の使い分け
3つの代表値は、それぞれ得意なこと、不得意なことがあります。
データの性質や分析の目的に応じて使い分けることが重要です。
| 代表値 | 特徴 | 適した場面 |
|---|---|---|
| 平均値 | 全てのデータが影響。外れ値に弱い。 | データが対称的に分布し、外れ値がない場合。(例:テストの点数) |
| 中央値 | 外れ値の影響を受けにくい。 | 外れ値がある、分布が歪んでいる場合。(例:所得、WebサイトPV数) |
| 最頻値 | 最も頻繁に出現する値。質的データにも使える。 | 最も人気のある項目を知りたい場合。(例:人気商品、アンケート回答) |
分布の歪みと代表値の関係
データの分布が左右対称でない場合、3つの代表値の位置関係には一定の傾向が見られます。
-
右に裾が長い分布
(少数の大きな値が存在) -
左に裾が長い分布
(少数の小さな値が存在)
右に裾が長い分布
一部の大きな値に平均値が引きずられ、右側にずれます。
(例:一部の高所得者が全体の平均所得を引き上げる)
一般的に、最頻値 < 中央値 < 平均値 の関係になります。
左に裾が長い分布
一部の小さな値に平均値が引きずられ、左側にずれます。
(例:製品の寿命。一部の初期不良品が平均寿命を下げる)
一般的に、平均値 < 中央値 < 最頻値 の関係になります。
まとめ
- 平均値: 最も一般的だが、外れ値に弱い。
- 中央値: 外れ値に強い。データの真ん中を示したい時に。
- 最頻値: 最も多い値。質的データや人気投票に。
データ分析の第一歩は、これらの代表値を正しく理解し、
目的に応じて最適なものを選択することから始まります。

