0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

代表値:平均値・中央値・最頻値_統計検定2級対策

0
Posted at

以下の統計検定2級対策動画で用いられているスライドの一部です。


1. 具体例から学んでみよう

統計学の代表値は、たくさんの数値を 「たった一つの値」 で表すための指標です。

まずは具体的な例を通して、代表値がどんなものか見ていきましょう。

  • 平均値:WebサイトのPV数
  • 中央値:従業員の通勤時間
  • 最頻値:Tシャツの販売サイズ

例1:WebサイトのPV数と「平均値」

あるWebサイトの直近7日間のページビュー数を見てみましょう。

データ
[350, 380, 410, 390, 420, 360, 1500]

このデータの「普通の」PV数を知るために、よく使われる方法で計算してみます。

  1. 全ての値を合計する
    $350 + 380 + 410 + 390 + 420 + 360 + 1500 = 3810$

  2. 合計をデータの個数(7)で割る
    $3810 \div 7 \approx 544.3$

この計算で得られた 544.3平均値です。


平均値から見えること

計算結果は 平均 544.3 PV でした。

しかし、元のデータをよく見てみると…
[350, 380, 410, 390, 420, 360, 1500]

ほとんどの日が 350〜420 の範囲なのに、平均値はかなり高い数値です。

これは、7日目の 1500 という突出した値(外れ値)が、平均値を大きく引き上げているためです。


例2:通勤時間と「中央値」(データ数が奇数)

外れ値に強い代表値を見てみましょう。5人の従業員の通勤時間です。

データ: [25, 45, 18, 90, 32]

  1. データを小さい順に並べ替えます。
    [18, 25, 32, 45, 90]

  2. ちょうど真ん中に来る値を探します。
    データは5個なので、真ん中は3番目です。

この 32中央値です。
90分という外れ値があっても、影響を受けません。


「中央値」の求め方(データ数が偶数)

次は6人のお客様の客単価です。

データ: [850, 1200, 900, 780, 1500, 880]

  1. データを小さい順に並べ替えます。
    [780, 850, 880, 900, 1200, 1500]

  2. 真ん中は3番目と4番目の2つです。
    この場合、2つの値の平均を計算します。
    $(880 + 900) \div 2 = 890$

この 890円中央値です。


例3:Tシャツのサイズと「最頻値」

数値ではないデータにも使える代表値があります。
1日に売れたTシャツのサイズを見てみましょう。

データ: ['M', 'L', 'S', 'L', 'M', 'L', 'XL', 'M', 'L']

それぞれのサイズが何回出たか数えます。

  • S: 1回
  • M: 3回
  • L: 4回
  • XL: 1回

最も多く出現した L最頻値です。
一番人気の商品を知りたい、といった場面で役立ちます。


2. 代表値の定義と特徴

ここまで見てきた具体例を、学術的な定義としてまとめてみましょう。

  • 平均値
  • 中央値
  • 最頻値

平均値の定義

平均値は、全てのデータの値を合計し、その合計をデータの個数で割って算出される値です。

計算式
データが $x_1, x_2, \dots, x_n$ のとき、平均値 $\bar{x}$ は以下の式で計算されます。

$$
\bar{x} = \frac{x_1 + x_2 + \dots + x_n}{n} = \frac{\sum_{i=1}^{n} x_i}{n}
$$

特徴

  • 全てのデータが計算に反映されます。
  • 外れ値(極端な値)の影響を大きく受けます

中央値の定義

中央値は、データを大きさの順に並べ替えたときに、ちょうど中央に位置する値です。

求め方

  • データが奇数個の場合
    並べ替えた後、真ん中の順位の値をそのまま使います。
  • データが偶数個の場合
    並べ替えた後、中央に位置する2つの値の平均値を計算します。

特徴

  • 外れ値の影響を受けにくいです。
  • データの分布が歪んでいる場合に、中心的な傾向を示すのに適しています。

最頻値の定義

最頻値は、データの中で、最も出現回数が多い値です。

特徴

  • 質的データ(数値でないデータ)にも使えます。
  • 最も人気のある項目を知りたい場合に便利です。
  • 最も出現回数が多い値が複数ある場合、最頻値も複数になります。
  • 全てのデータの出現回数が同じ場合、最頻値は存在しません。

3. 代表値の使い分け

3つの代表値は、それぞれ得意なこと、不得意なことがあります。
データの性質や分析の目的に応じて使い分けることが重要です。

代表値 特徴 適した場面
平均値 全てのデータが影響。外れ値に弱い。 データが対称的に分布し、外れ値がない場合。(例:テストの点数)
中央値 外れ値の影響を受けにくい。 外れ値がある、分布が歪んでいる場合。(例:所得、WebサイトPV数)
最頻値 最も頻繁に出現する値。質的データにも使える。 最も人気のある項目を知りたい場合。(例:人気商品、アンケート回答)

分布の歪みと代表値の関係

データの分布が左右対称でない場合、3つの代表値の位置関係には一定の傾向が見られます。

  • 右に裾が長い分布
    (少数の大きな値が存在)

  • 左に裾が長い分布
    (少数の小さな値が存在)


右に裾が長い分布

一部の大きな値に平均値が引きずられ、右側にずれます。
(例:一部の高所得者が全体の平均所得を引き上げる)

一般的に、最頻値 < 中央値 < 平均値 の関係になります。

image.png


左に裾が長い分布

一部の小さな値に平均値が引きずられ、左側にずれます。
(例:製品の寿命。一部の初期不良品が平均寿命を下げる)

一般的に、平均値 < 中央値 < 最頻値 の関係になります。

image.png


まとめ

  • 平均値: 最も一般的だが、外れ値に弱い
  • 中央値: 外れ値に強い。データの真ん中を示したい時に。
  • 最頻値: 最も多い値。質的データや人気投票に。

データ分析の第一歩は、これらの代表値を正しく理解し、
目的に応じて最適なものを選択することから始まります。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?