記述統計の中でも最も基礎的かつ重要な情報縮約の、その代表とも言える平均についてまとめます。
基本的な内容ですが、統計を現実の問題に応用しようとしたときに、まず最初の一歩で誤りやすい落とし穴かと思います。
いろいろな平均
平均値、中央値、最頻値については前に書きましたが、平均と言ってもよく知られる算術平均以外に実に様々なものがあります。算術平均を使うべきでない場面で算術平均を使うと、結果がおかしなことになってしまいますから注意が必要です。
算術平均
すべての値を加算して値の個数で割ることで求めた値。
X と Y の算術平均は次のようになります。
\frac {X+Y} N
幾何平均
10000 円の株価が 40% 低下し、翌年には 50% 上昇した。
これをうっかり算術平均で計算してしまいますと (-40 + 50) / 2 = 5% 上昇したことになってしまいますが…。
実際には 10000 → 6000 → 9000 円と変動するので 10 % 低下します。
そこで幾何平均を利用します。
X と Y の幾何平均は次のようになります。
\sqrt{XY}
したがって
10000 × \sqrt{(0.6 × 1.5)} × \sqrt{(0.6 × 1.5)} \approx 9000
となるわけです。これが幾何平均です。
調和平均
60km 先の目的地まで、行きは時速 30km 、帰りは時速 60km で移動した。
この例を算術平均で計算してしまいますと時速が (30+60) / 2 = 45km となってしまいますがこれは正しいでしょうか。
行き帰りで 2 + 1 = 3 時間かかっていますが、 3 時間で時速 45km だとすると 135km も移動したことになりますから誤りです。
この場合はデータ数をデータの逆数の加算結果で除算する調和平均で求めるのが正解です。
\frac {N} {\frac {1} {X} + \frac {1} {Y}}
となるので
2 / (1/30 + 1/60) = 40
となります。これが調和平均です。
トリム平均 (調整平均)
上位下位 5 パーセントを除いて残りの 90% の平均を求める、といった方法です。
スケートの審査で最高点と最低点を出した審判を無視して判定するといったのも一種のトリム平均になります。
トリム平均は外れ値の影響を回避したいときに有益です。
ただし、外れ値の程度がどれくらいだから取り除くのかといった根拠に論理的な説明ができない、あるいは外れ値自体に意味があるといったケースでは実態にあわない、といった欠点もあります。