1. 平均の一般定義・性質
概要
このシリーズではデータ分析等で現れる平均について, 数学的観点から定義・解説する.
よく知られた平均である算術平均, 幾何平均, 調和平均と, これらを一般化した平均, またそれ以外の平均の例を紹介して, それぞれが持つ性質について述べる.
今回は平均の一般的な定義とシリーズ中で扱う平均とその性質の一覧を挙げる.
- (ココ) 平均の一般的な定義・性質,
- 算術平均・幾何平均・調和平均,
- ヘルダー平均・一般化 f 平均,
- 期待値・中央値・最頻値,
- 重み付き平均・列平均,
一般定義
cf. 「平均」にまつわるいくつかの断片 / 紀要論文:石鎚 英也(PDF:https://senshu-u.repo.nii.ac.jp/?action=repository_uri&item_id=11920&file_id=32&file_no=1)
通常, 「平均」というと渡された $n$ 個の値の総和を取って $n$ で割った値を返す算術平均を指す.
ここではこれを一般化して, 1つ以上の $n$ 個の値 (つまり $n$ 次元ベクトル) を受け取って代表となる値を返す関数をまとめて平均と呼ぶ.
平均は受け取った値の最大値以下, 最小値以上の値を返すという性質がだいたい最低条件で, 他に決まりは特にない.
$n$ 個の $d$ 次元ベクトル (つまり $n\times d$ 次元ベクトル) を渡して $d$ 次元ベクトルを返す関数として定義されることもあるが, ほとんどの場合は $d$ 個の成分について独立してスカラーの関数としての平均を取ったものと言い換えられるため1, ここでは $n$ 個のスカラー値から1つのスカラー値を返すものだけを扱う.
平均の種類
このシリーズで紹介する平均は以下の表の通り.
一般に平均と言った場合は算術平均, 幾何平均, 調和平均の3種類が代表的で, これらを一般化するとヘルダー平均, さらに一般化 $f$ 平均と呼ばれる形式で体系化できる.
統計学での期待値, 中央値, 最頻値もここでの平均に含まれる.
また, 重み付き平均や列平均といった既存の平均を使って新たな平均を構成する方法もある.
名称 | 定義域23 | 特徴 |
---|---|---|
算術平均 (平均, 相加平均) | 実数全体 | 最も一般的な平均 |
幾何平均 (相乗平均) | 非負実数 | 掛け算を使った平均 |
調和平均 | 正の実数 | 逆数の算術平均の逆数 負の数を渡しても計算自体は可能なことが多い |
ヘルダー平均 (一般化平均, 累乗平均, 冪平均) | 正の実数 | 算術平均, 幾何平均, 調和平均を含む形で一般化している |
一般化 $f$ 平均 | 適用される $f$ の定義域に一致 | ヘルダー平均をさらに一般化した平均 |
期待値 | 実数全体 | 確率分布を仮定して積分計算する必要がある 統計, 機械学習でよく現れる |
中央値 | 実数全体 | 外れ値に強く算出が容易 統計, 機械学習でよく現れる |
最頻値 | 実数全体 | 外れ値に強いが確率分布を仮定する必要がある 統計, 機械学習でよく現れる |
重み付き平均 | 元の平均と重みの範囲に依存する | 既存の平均を修正した平均 渡した値の重要度を考慮する |
列平均 (sequential mean) | 元の2つの平均の定義域の共通部分に一致 | 既存の2つの平均から求まる平均 算術幾何平均の一般化 |
一般的な性質
一般の平均が持ち得る性質として, 最初に挙げた「平均」にまつわるいくつかの断片では以下のものが紹介されている.
全ての平均がこれらの性質を持つわけではなく, 扱う平均がどの性質を持つかによって, 返り値の特徴等, 扱い方が決まる.
逆に「広義内部性と置換性を満たす関数を平均と呼ぶ」といったように以下の性質を使って平均が定義される場合もある.
詳細は以降の記事で解説するが, 例えば算術平均は以下全ての性質を持ち, 中央値, 最頻値は双対称性, 置換性を持たない.
平均 $\mu$ と $X = [x_0, x_1, \dots, x_{n-1}] \in \mathbb{R}^n$ に対して,
-
広義内部性4:
$$ \min{{x_0, x_1, \dots, x_{n-1}}} \leq \mu(X) \leq \max{{x_0, x_1, \dots, x_{n-1}}}, $$
$x_0 = x_1 = \dots = x_{n-1} = x$ の時, $\mu([x, x, \dots, x]) = x$ という不動性と呼ばれる性質が導かれる,
-
対称性:
$0, 1, \dots, n-1$ の置換 $\sigma_0, \sigma_1, \dots, \sigma_{n-1}$ と $X^\sigma = [x_{\sigma_0}, x_{\sigma_1}, \dots, x_{\sigma_{n-1}}]$ に対して,$$ \mu(X^\sigma) = \mu(X), $$
-
双対称性:
$\mathcal{X} = [x_{ij}]^{i=0, 1, \dots, n-1}_{j=0, 1, \dots, m-1}$ に対して,$$ \mu([\mu([x_{ij}]_{j=0, 1, \dots, m-1})]_{i=0, 1, \dots, n-1}) = \mu([\mu([x_{ij}]_{i=0, 1, \dots, n-1})]_{j=0, 1, \dots, m-1}), $$
-
置換性:
$\bar{x}^{(k)} = \mu([x_0, x_1, \dots, x_{k-1}])$ と書くと,$$ \mu(X) = \mu([\bar{x}^{(k)}, \dots, \bar{x}^{(k)}, x_k, \dots, x_{n-1}]), $$
ただし右辺の引数は最初 $k$ 個の成分が $\bar{x}^{(k)}$ で以降は $x_k, \dots, x_{n-1}$ であるベクトル,
-
斉次性:
$\lambda x_i \in \mathcal{D}_\mu$ ($\mathcal{D}_\mu$: $\mu$ の定義域) となる $\lambda$ に対して,$$ \mu(\lambda X) = \lambda\mu(X), $$
-
(変数毎の) 連続性:
$\mu$ は $i$ 毎に $x_i$ について連続, -
(変数毎の) 広義単調増加性:
$\mu$ は $i$ 毎に $x_i$ について広義単調増加, つまり $x_i \leq y_i$ に対して,$$ \mu([x_0, x_1, \dots, x_{i-1}, x_i, x_{i+1}, \dots, x_{n-1}]) \leq \mu([x_0, x_1, \dots, x_{i-1}, y_i, x_{i+1}, \dots, x_{n-1}]). $$
内部性, 単調増加性は狭義で成り立つ場合もある.
$\mu$ が狭義内部性を持つとは, $\min{{x_0, x_1, \dots, x_{n-1}}} \neq \max{{x_0, x_1, \dots, x_{n-1}}}$ の時,
$$ \min{{x_0, x_1, \dots, x_{n-1}}} \lt \mu(X) \lt \max{{x_0, x_1, \dots, x_{n-1}}}, $$
が成り立つことで, 狭義単調増加性は $x_i \lt y_i$ に対して,
$$ \mu([x_0, x_1, \dots, x_{i-1}, x_i, x_{i+1}, \dots, x_{n-1}]) \lt \mu([x_0, x_1, \dots, x_{i-1}, y_i, x_{i+1}, \dots, x_{n-1}]), $$
が成り立つことを意味する.