3. ヘルダー平均・一般化 f 平均
概要
このシリーズではデータ分析等で現れる平均について, 数学的観点から定義・解説する.
よく知られた平均である算術平均, 幾何平均, 調和平均と, これらを一般化した平均, またそれ以外の平均の例を紹介して, それぞれが持つ性質について述べる.
今回は前回紹介した3つの平均を一般化したヘルダー平均, 一般化 $f$ 平均を扱う.
- 平均の一般的な定義・性質,
- 算術平均・幾何平均・調和平均,
- (ココ) ヘルダー平均・一般化 $f$ 平均,
- 期待値・中央値・最頻値,
- 重み付き平均・列平均,
ヘルダー平均 (Hölder mean)
cf. https://ja.wikipedia.org/wiki/%E3%83%98%E3%83%AB%E3%83%80%E3%83%BC%E5%B9%B3%E5%9D%87
一般化平均, 累乗平均, 冪平均とも.
実数 $p$ でパラメータ付けた, 算術平均, 幾何平均, 調和平均を一般化した平均.
$$ \begin{gather}
\mathcal{H}_p(X) := \left(\frac{1}{n}\sum_{i=0}^{n-1}x_i^p\right)^{\frac{1}{p}}, \\
\text{for} \ X = [x_0, x_1, \dots, x_{n-1}] \in \mathbb{R}^n_{\gt 0}.
\end{gather} $$
$p$-ノルムに定義が似ているがノルムとしての条件 (三角不等式) を必要としないので $p \lt 1$ どころか負値でも構成が可能.
これは $p \in \mathbb{R} \setminus \{0\}$ でしか定義できないが, 極限操作によって $p = 0, \pm\infty$ にも拡張できて,
$$ \lim_{p \rightarrow \alpha}\mathcal{H}_p(X) = \begin{cases}
\left(\prod_{i=0}^{n-1}x_i\right)^{\frac{1}{n}} = \mathrm{GM}(X), & \alpha = 0, \\
\max{{x_0, x_1, \dots, x_{n-1}}}, & \alpha = +\infty, \\
\min{{x_0, x_1, \dots, x_{n-1}}}, & \alpha = -\infty, \\
\end{cases} $$
となることが知られている.
幾何平均, 調和平均も含んだ一般化なので同じく渡される値は正でないととても面倒.
算術平均, 幾何平均, 調和平均はそれぞれ $\mathcal{H}_1, \mathcal{H}_0, \mathcal{H}_{-1}$ に一致し, ヘルダー平均はこれらの一般化となっていることが分かる.
また, $\mathcal{H}_{\pm\infty}$ は定義がそのまま最大・最小値を返す関数であり, $\mathcal{H}_2$ は評価指標で知られる RMSE に用いられる1等, ヘルダー平均はそれらも含めて一般化した平均となっている.
一般化 f 平均 (generalized f-mean)
ヘルダー平均をさらに一般化した平均.
$$ \begin{gather}
M_f(X) := f^{-1}\left(\frac{1}{n}\sum_{i=0}^{n-1}f(x_i)\right), \\
\text{for} \ X = [x_0, x_1, \dots, x_{n-1}] \in \mathcal{D}_f^n.
\end{gather} $$
ただし $f$ は狭義単調な (故に値域で逆関数を持つ) 連続関数で$\mathcal{D}_f$ は $f$ の定義域.
$f$ が $\frac{1}{n}\sum_{i=0}^{n-1}f(x_i)$ で逆関数を持つことは, 算術平均の内部性と $f$ の連続性, 狭義単調性から保証される.
パラメータ $p \neq 0, \pm\infty$ のヘルダー平均は $f(x) = x^p$ と取ることで $\mathcal{H}_p = M_{x^p}$ と書くことができ, $p = 0$ ならば $\mathcal{H}_0 = M_{\log{x}}$ である.
$p = \pm\infty$ のヘルダー平均は一般化 $f$ 平均による表現を持たないため, 一般化平均はパラメータ $-\infty \lt p \lt \infty$ のヘルダー平均を一般化した平均だと言うことができる.
一般化 $f$ 平均は $M_f(X) = f^{-1}(\mathrm{AM}(f(X)))$ とも書けて, $\mathrm{AM}$ を一般の平均 $\mu$ に置き換えた形での,
$$ M_{f; \mu}(X) := f^{-1}(\mu(f(X))), $$
という定義も考えられる2 (通常の一般化 $f$ 平均は $M_f = M_{f; \mathrm{AM}}$ となる).
これは $\mu$ がある関数 $g$ を使って $\mu = M_g$ と記述できるなら,
$$ M_{f; M_g}(X) = f^{-1}\left(g^{-1}\left(\frac{1}{n}\sum_{i=0}^{n-1}g(f(x_i))\right)\right) = M_{g\circ f}(X), $$
と変形され, 算術平均を使った一般化 $f$ 平均 (一般化 $g\circ f$ 平均 ?) に帰着されるが, そうでない $\mu$ に対しては通常の算術平均を使った一般化 $f$ 平均で表現できない新たな平均を提供する3.
$\mu$ が内部性を持たない場合は $f$ が逆関数を持つ範囲を外れる可能性があることに注意.
性質
ヘルダー平均, 一般化 f 平均が持つ一般的な性質
ヘルダー平均は以下の一般的な性質の全てを満たし, 一般化 $f$ 平均は斉次性を除く全ての性質を持つ.
- 広義内部性:
$\min{{x_0, x_1, \dots, x_{n-1}}} \leq \mu(X) \leq \max{{x_0, x_1, \dots, x_{n-1}}}$, - 対称性:
$\mu(X^\sigma) = \mu(X) \ \text{for} \ \sigma: \text{permutation}$, - 双対称性:
$\mu([\mu([x_{ij}]_{j=0, 1, \dots, m-1})]_{i=0, 1, \dots, n-1}) = \mu([\mu([x_{ij}]_{i=0, 1, \dots, n-1})]_{j=0, 1, \dots, m-1})$, - 置換性:
$\mu(X) = \mu([\mu([x_0, x_1, \dots, x_{k-1}]), \dots, \mu([x_0, x_1, \dots, x_{k-1}]), x_k, \dots, x_{n-1}])$, - 斉次性:
$\mu(\lambda X) = \lambda\mu(X)$, - 変数毎の連続性,
- 変数毎の広義単調増加性,
一般化 $f$ 平均は (ゆえにパラメータ $p \neq \pm\infty$ のヘルダー平均も) 狭義の内部性, 単調増加性を持つ.
パラメータ $\pm\infty$ のヘルダー平均, つまり最大・最小値は,
$$ \min{{x_0, x_1, \dots, x_{n-1}}} \leq \mu(X) \leq \max{{x_0, x_1, \dots, x_{n-1}}}, $$
の一方の不等式が常に等式となるため狭義内部性を満たさず, 最大または最小値でない変数 $x_i$ を変化させても返り値は不変なため狭義単調増加性も持たない.
一般化した等式
前回記事での算術平均と調和平均との関係式もヘルダー平均によって一般化される.
$$ \mathcal{H}_q(X) = \mathcal{H}_\frac{q}{p}\left(X^p\right)^\frac{1}{p}, \quad p, q \neq 0, \pm\infty. $$
ただし $X^\alpha := [x_0^\alpha, x_1^\alpha, \dots, x_{n-1}^\alpha]$.
これに $p = -1$ を代入すると $\mathcal{H}_q(X) = \mathcal{H}_{-q}\left(X^{-1}\right)^{-1}$ となり, $q = \pm1$ の時, 算術平均, 調和平均間の等式が得られる.
一般化 $f$ 平均では,
$$ M_g(X) = f^{-1}(M_{g\circ f^{-1}}(f(X))) = M_{f; M_{g\circ f^{-1}}}(X), $$
が成り立ち, $f(x) = x^\frac{q}{p}, g(x) = x^q$ と置くと, 上のヘルダー平均の関係式となる.
一般化した不等式
前回記事で紹介した不等式もヘルダー平均, 一般化 $f$ 平均を使って一般化した形式がある.
(1) 相加・相乗の関係の一般化
2つのパラメータ $p \lt q$ のヘルダー平均には次の関係が成り立つ.
$$ \mathcal{H}_p(X) \leq \mathcal{H}_q(X). $$
$p = 0, q = 1$ の時, 相加・相乗の関係になる.
前回記事で述べた値の大小の重要度に関する議論をここでの不等式にも適用すると, ヘルダー平均はパラメータの大小と重視する値の大小に正の相関を持つことが分かる.
例えば RMSE は誤差について $\mathcal{H}_2$ で平均を取った指標であり, $\mathcal{H}_1$ を使う MAE と比較してより大きい誤差を重視する, つまり外れ値の影響を受けやすいことになる.
一般化 $f$ 平均の場合, 狭義単調な連続関数 $f, g$ に対して $g\circ f^{-1}$ が凸関数となるならば, 以下のように同様の不等式が得られる.
$$ M_f(X) \leq M_g(X). $$
ただしこれは $f, g$ が共に狭義単調増加で $g\circ f^{-1}$ が下に凸の場合の不等式で, $f$ または $g$ が狭義単調減少であったり $g\circ f^{-1}$ が上に凸であったりすると不等号が逆向きになる.
この不等式において, $p \lt q$ となる $p, q \neq \pm\infty$ に対して $f(x) = x^p, g(x) = x^q$ (または $\log{x}$) と置くと, $p, q$ の値による $f, g$ の単調増加/減少性, 及び $g\circ f^{-1}$ の凸性の向きを調べることで, 先に挙げたヘルダー平均に関する不等式が導かれることが分かる.
(2) 劣双対称性 (未証明)
劣双対称性は, ヘルダー平均, 一般化 $f$ についても成り立つことが予想される.
つまり, $p \lt q$ となる $p, q$ 及び $g\circ f^{-1}$ が凸関数 (で $f, g$ が単調増加/減少性について特定の組み合わせを取る) となる $f, g$ に対して,
$$ \begin{gather}
\mathcal{H}_q([\mathcal{H}_p([x_{ij}]_{i=0, 1, \dots, n-1})]_{j=0, 1, \dots, m-1}) \leq \mathcal{H}_p([\mathcal{H}_q([x_{ij}]_{j=0, 1, \dots, m-1})]_{i=0, 1, \dots, n-1}), \
M_g([M_f([x_{ij}]_{i=0, 1, \dots, n-1})]_{j=0, 1, \dots, m-1}) \leq M_f([M_g([x_{ij}]_{j=0, 1, \dots, m-1})]_{i=0, 1, \dots, n-1}), \
\end{gather} $$
となると思われる.
$p, q$ が $0$ を含めた同符号であるヘルダー平均については三角不等式, ヘルダーの不等式で容易に示せるが, その他は未証明.