基本統計量
基本統計量とは、標本の分布の状態や特徴を代表的に表す数値です。要約統計量や記述統計量とも言われます。
平均値・中央値・最頻値の3つの代表値や範囲、分散、標準偏差、四分位点、歪度、尖度などが該当します。
3つの代表値
- 平均値(mean)▶︎全てのデータを足し合わせてその個数で割った値
- 中央値(median)▶︎データを小さい方から大きい方へ並び替えた時に中央に位置する値
- 最頻値(mode)▶︎データの中で最も多く存在する値
平均値と中央値
- 平均値▶︎全てのデータを使用するため情報が有効に使える・外れ値の影響を強く受ける
- 中央値▶︎多くのデータが未使用のままになる・外れ値の影響を受けない(抵抗性がある)
3つの代表値の分布
データが単峰性の分布をする時、平均値・中央値・最頻値の大小関係を整理すると以下のようになります。
①右に裾が長い分布では「平均値>中央値>最頻値」
②左右対称な分布では「平均値=中央値=最頻値」
③左に裾が長い分布では「平均値<中央値<最頻値」となります。
※右に歪んだ分布は**「所得・貯蓄・体重」、左右対称な分布は「身長・自然現象・社会現象」、左に歪んだ分布は「簡単なテストの採点結果」**などが具体例として挙げられます。
平均値の種類
平均値には、算術平均(相加平均)、幾何平均(相乗平均)、調和平均、加重平均、トリム平均、移動平均などの様々な種類の平均が存在します。
算術平均(相加平均)
\bar{x}=\frac{x_1+x_2+…+x_n}{n}=\frac{1}{n}\sum_{i=1}^{n}x_i
幾何平均(相乗平均)
幾何平均とは、n個のデータを掛け合わせてn乗根をとった値のことであり、時系列データの成長率といった指数関数的に増減する平均として利用されます。
x_g=\sqrt[n]{x_1 \times x_2 \times …\times x_n}
調和平均
調和平均とは、**「逆数の算術平均の逆数」**であり、速度の平均といった反比例的に増減する平均として利用されます。
x_h=\frac{n}{\sum_{i=1}^{n} \frac{1}{x_i}}
加重平均
加重平均とは、データのそれぞれの重要度に応じてウエイト(重み)を掛け、平均する方法です。
(例. スーツの種類別の価格と販売数を元に全スーツ1着当たりの平均価格を求める)
x_w=\frac{w_1x_1+w_2x_2+…+w_nx_n}{w_1+w_2+…+w_n}=\frac{\sum_{i=1}^{n}w_ix_i}{\sum_{i=1}^{n}w_i}
トリム平均
トリム平均とは、データを小さい方から順番に並べ、小さい方からと大きい方からの両端の5%、10%、20%などの指定された部分を削除して、残りの算術平均を求める方法です。トリム平均で指定された部分を削除することで、外れ値の影響を取り除くことができます。刈り込み平均、調整平均とも言われます。
移動平均
移動平均とは、株価や気温、売り上げといった時系列データについて、前後のデータの平均を求めることで、偶然変動や季節変動を取り除き、そのデータの長期間にわたる変動の傾向を知るために用いる方法です。
移動平均の計算は奇数項が簡単であり、3項移動平均と5項移動平均の定義は次のようになります。
3項移動平均=\frac{x_{t-1}+x_t+x_{t+1}}{3}
5項移動平均=\frac{x_{t-2}+x_{t-1}+x_t+x_{t+1}+x_{t+2}}{5}
偶数項である四半期データの場合は、まず4項移動平均を2つ求め、再度その算術平均を求めるという方法を採ります。これを移動平均の中心化と言い、中心化4項移動平均を定義すると、次のようになります。
中心化4項移動平均=\frac{\frac{x_{t-2}+x_{t-1}+x_t+x_{t+1}}{4}+\frac{x_{t-1}+x_t+x_{t+1}+x_{t+2}}{4}}{2}
=\frac{x_{t-2}+2x_{t-1}+2x_t+2x_{t+1}+x_{t+2}}{8}
=\frac{0.5x_{t-2}+x_{t-1}+x_t+x_{t+1}+0.5x_{t+2}}{4}