4. 期待値・中央値・最頻値
概要
このシリーズではデータ分析等で現れる平均について, 数学的観点から定義・解説する.
よく知られた平均である算術平均, 幾何平均, 調和平均と, これらを一般化した平均, またそれ以外の平均の例を紹介して, それぞれが持つ性質について述べる.
今回はヘルダー平均, 一般化 $f$ 平均では表現できない平均の例として, 確率論に基いて定義される期待値, 中央値, 最頻値を紹介する.
- 平均の一般的な定義・性質,
- 算術平均・幾何平均・調和平均,
- ヘルダー平均・一般化 f 平均,
- (ココ) 期待値・中央値・最頻値,
- 重み付き平均・列平均,
確率論に基づく平均
$X = [x_0, x_1, \dots, x_{n-1}] \in \mathbb{R}^n$ がある確率分布に従うと仮定して, その確率密度関数 (場合によって確率質量関数) を $p(x; X)$ とする.
仮定される確率分布には, $X$ を含む集合上で確率密度関数が定義される以外に特に制約はない.
一般的な統計的手続きでは $X$ が何を表す値か, どのように取得した値か等を考慮して条件が付けられることも多いが, 以降の議論は任意の確率分布に適用できるため, 制限しないまま話を進める.
確率論では, 確率分布やサンプルから計算されるスカラー値は統計量と呼ばれる1.
確率分布を $X$ から特定の手続きで決定した場合 (パラメータ付き確率分布を置いて $X$ からパラメータを決定する等), そこから得られる統計量は $X$ を引数とする実数値関数と見なせるので, このシリーズでは平均だと言える (第1回参照).
この解釈だと分散や標準偏差等, 感覚的に平均とは考えにくい統計量も平均として扱われることに注意.
今回はその中で, 一般用語としての「平均」に近い意味を持つ期待値, 中央値, 最頻値を扱う.
期待値 (expected value, mean)
期待値は $X = [x_0, x_1, \dots, x_{n-1}] \in \mathbb{R}^n$ を無限次元に拡張した時の算術平均と解釈できる平均で, 確率密度関数の積分で得られる.
$$ \mathrm{Expect}(X) := \int_{\mathcal{D}_p}xp(x; X)dx. $$
$\mathcal{D}_p \subset \mathbb{R}$ は標本空間 ($p(x; X)$ の定義域) である.
この積分が収束しなければ (コーシー分布を仮定した場合等) 期待値が存在しないということになる.
cf. コーシー分布の定義と性質とその証明 (https://mathlandscape.com/cauchy-distrib/)
確率分布を離散分布として $p(x; X)$ が確率質量関数となる場合は次で定義される.
$$ \mathrm{Expect}(X) := \sum_{x \in \mathcal{D}_p}xp(x; X). $$
離散分布を仮定した時, $p(x; X)$ を各 $x_i$ の出現率で決定して,
$$ p(x; X) = \frac{\#\{i \ | \ x_i = x\}}{n}, $$
で得られる確率分布を用いれば, この期待値は算術平均に一致する.
一般化 $f$ 平均との組み合わせによる拡張も考えられ, 次の論文はその一例である.
cf. SOME GENERAL MEANS / J. Sándor, Forteni, and Gh. Toader, Cluj-Napoca(1996) (PDF : https://cmj.math.cas.cz/full/49/1/cmj49_1_6.pdf)
中央値 (median)
$X = [x_0, x_1, \dots, x_{n-1}] \in \mathbb{R}^n$ の各値 $x_i$ のうち中央に位置する値を取る平均が中央値である.
通常, 中央値は確率分布を仮定することなく $x_0, x_1, \dots, x_{n-1}$ をソートした時の中央の値とすることが多い.
$n$ が奇数ならば $\frac{n-1}{2}$ 番目の値がちょうど中央になるが, 偶数の場合は $\frac{n-2}{2}, \frac{n}{2}$ 番目の値の平均等で, 中央に位置すると見なせる値を取る必要がある.
$i_l := \max{\left\{i \ \middle| \ i \leq \frac{n-1}{2}\right\}}, i_u := \min{\left\{i \ \middle| \ i \geq \frac{n-1}{2}\right\}}$ と置くと, 偶数の場合に用いる平均 $\mu$ として内部性を持つものを選ぶと, この中央値は $n$ の偶奇に関わらず次のように書ける.
$$ \begin{gather}
\mathrm{Median}_\mathrm{sort}(X) := \mu\left(\left[x^\sigma_{i_l}, x^\sigma_{i_u}\right]\right) \\
x^\sigma_0 \leq x^\sigma_1 \leq \dots \leq x^\sigma_{n-1}: x_0, x_1, \dots, x_{n-1} \ \text{の置換}. \
\end{gather} $$
これをこの記事では標準的な中央値, 最終的な値の決定に用いる $\mu$ をそれに付随する平均と呼ぶことにする2.
確率分布を使う場合, 「中央に位置する」という条件は「累積分布関数の値がちょうど $\frac{1}{2}$」と言い換えられる.
$$ \begin{gather}
\mathrm{Median}(X) := \Phi^{-1}\left(\frac{1}{2}\right), \\
\Phi(x) := \int_{y \leq x}p(y; X)dy. \\
\end{gather} $$
離散分布の場合, 累積分布関数の値も離散的になり, ちょうど $\frac{1}{2}$ を取るとは限らないため, ソートを利用した中央値と同様に $\frac{1}{2}$ に近い値を利用して算出される.
$$ \begin{gather}
\mathrm{Median}(X) := \mu([x_l, x_u]), \text{etc.}, \\
x_l := \max{\left\{x \ \middle| \ \Phi(x) \leq \frac{1}{2}\right\}}, \quad x_u := \min{\left\{x \ \middle| \ \Phi(x) \geq \frac{1}{2}\right\}} \\
\Phi(x) := \sum_{y \leq x}p(y; X), \
\end{gather} $$
確率質量関数を期待値の節でも挙げた $x_i$ の出現率で,
$$ p(x; X) = \frac{\#\{i \ | \ x_i = x\}}{n}, $$
と取ると, 標準的な中央値に一致する $x_i$ がただ一つならば, この $p(x)$ で与えられる $\mathrm{Median}(X)$ は標準的な中央値に一致する.
最頻値 (mode)
$X$ のヒストグラムを描いて, 棒グラフが最も高くなる区間の代表値を取ったものが最頻値である.
$m+1$ 個の閾値 $-\infty \leq \alpha_0 \lt \alpha_1 \lt \dots \lt \alpha_m \leq \infty$3 を固定した時,
$$ \begin{gather}
v_j := \#\{i \ | \ x_i \in [\alpha_j, \alpha_{j+1})\}, \\
[\alpha_j, \alpha_{j+1}) := {x \ | \ \alpha_j \leq x \lt \alpha_{j+1}},
\end{gather} $$
で定まる $v_j$, つまり区間 $[\alpha_j, \alpha_{j+1})$ に含まれる $x_i$ の個数の棒グラフが $X$ のヒストグラムであり, $v_j$ が最大となるインデクス $j^*$ に対する $\alpha_{j^*}, \alpha_{j^*+1}$ から, 中央値と同様に平均を取る等すると最頻値が得られる.
$$ \begin{gather}
\mathrm{Mode}_\mathrm{hist}(X) := \mu([\alpha_{j^*}, \alpha_{j^*+1}]), \\
j^* := \mathop{\arg\max}\limits_{j = 0, 1, \dots, m-1}{{v_j}}. \\
\end{gather} $$
これをこの記事において標準的な最頻値と呼び, $\mu$ を中央値と同じく付随する平均と呼ぶ.
最大の $v_j$ を与える $j$ が1つに決まるとは限らず, 複数の値が最頻値となる場合もあることに注意.
確率分布を用いると, $p(x; X)$ が $x_0, x_1, \dots, x_{n-1}$ の出現確率だと考えた時に最も出現しやすい値が最頻値である.
$$ \mathrm{Mode}(X) := \mathop{\arg\max}\limits_{x \in \mathcal{D}_p}{{p(x; X)}}. $$
標準的な最頻値と同じく, 混合ガウス分布のような多峰性を持つ確率分布では複数の値が最頻値となることがある.
離散分布を仮定した場合も同じく $p(x; X)$ が最大となる $x$ で最頻値を定義できるが, 例えば $x_i$ の出現率,
$$ p(x; X) = \frac{\#\{i \ | \ x_i = x\}}{n}, $$
を用いると, 全ての $i$ についての $x_i$ が最頻値となることもよく発生する.
そのため, 閾値 $-\infty = \alpha_0 \lt \alpha_1 \lt \dots \lt \alpha_m = \infty$ から,
$$ \begin{gather}
p(j; X) = \frac{\#\{i \ | \ x_i \in [\alpha_j, \alpha_{j+1})\}}{n}, \\
j^* := \mathop{\arg\max}\limits_{0 \leq j \lt m}{{p(j; X)}}, \\
\end{gather} $$
として最頻区間 $[\alpha_{j^*}, \alpha_{j^*+1})$ の代表値を最頻値とする方法も考えられ, これは標準的な最頻値に一致する.
性質
期待値, 中央値, 最頻値が持つ一般的な性質
以上で定義した3種類の平均は仮定する確率分布に依存し, 第1回記事で紹介した一般的な性質を満たすかどうかもそれによるところが大きい.
しかし, 一般的な統計的手続きに基いて $X = [x_0, x_1, \dots, x_{n-1}]$ から各 $x_i$ が従う確率分布を決定すると, いくつかの性質について議論することができるようになる.
統計的手続きの詳細については統計学, 統計的推定の記事や書籍を参照.
例えば正規分布モデルについて $X$ に基づく平均の最尤推定を行うと, その推定値は $X$ の算術平均に一致することが知られている.
$$ \begin{gather}
p(x|\theta) := \frac{1}{\sqrt{2\pi}}\exp\left(-\frac{1}{2}(x-\theta)^2\right), \\
p(\theta|X) := \prod_{i=}^{n-1}p(x_i|\theta) = p(x_0|\theta)p(x_1|\theta)\dots p(x_{n-1}|\theta), \\
\Longrightarrow \mathop{\arg\max}\limits_\theta{p(\theta|X)} = \frac{1}{n}\sum_{i=0}^{n-1}x_i. \\
\end{gather} $$
正規分布の平均は期待値, 中央値, 最頻値に一致するため, この場合は以下の性質を全て満たすことが分かる (第2回参照).
- 広義内部性:
$\min{{x_0, x_1, \dots, x_{n-1}}} \leq \mu(X) \leq \max{{x_0, x_1, \dots, x_{n-1}}}$, - 対称性:
$\mu(X^\sigma) = \mu(X) \ \text{for} \ \sigma: \text{permutation}$, - 双対称性:
$\mu([\mu([x_{ij}]_{j=0, 1, \dots, m-1})]_{i=0, 1, \dots, n-1}) = \mu([\mu([x_{ij}]_{i=0, 1, \dots, n-1})]_{j=0, 1, \dots, m-1})$, - 置換性:
$\mu(X) = \mu([\mu([x_0, x_1, \dots, x_{k-1}]), \dots, \mu([x_0, x_1, \dots, x_{k-1}]), x_k, \dots, x_{n-1}])$, - 斉次性:
$\mu(\lambda X) = \lambda\mu(X)$, - 変数毎の連続性,
- 変数毎の広義単調増加性,
一方で正規分布モデルに対して平均を固定して分散のみの推定を行うと, 期待値, 中央値, 最頻値は $X$ によらず一定値を取り, 上の性質のうち内部性と斉次性は成り立たなくなる (返り値が固定であればそれ以外の性質が常に成り立つことは容易に示せる).
標準的な中央値, 最頻値の性質
(1) 一般的な性質
標準的な中央値は対称性を持ち, 付随する平均が広義内部性, 斉次性, そして連続性と広義単調増加性をそれぞれ持つなら, 標準的な中央値も同じ性質を持つ.
標準的な最頻値は複数の値を取り得るが, それぞれの値について対称性を持ち, 付随する平均が斉次性を持つならば標準的な最頻値もそれを持つ.
広義内部性については, 付随する平均について成り立つとしても標準的な最頻値で成り立つとは限らない.
例えば, 広義内部性を持つ $\mu$ が付随するとして, 全ての $x_i$ が $\alpha_j \leq y \lt \alpha_{j+1}$ かつ $y \neq \mu(\alpha_j, \alpha_{j+1})$ である $y$ に一致する時, 明らかに $\mathrm{Mode}_\mathrm{hist}(X) = \mu(\alpha_j, \alpha_{j+1})$ で $x_i$ の最小・最大値は $y$ となるので内部性は満たさない.
(2) 不変性
標準的な中央値, 最頻値は, ある条件下で不変性が成り立つ.
つまり, $x_i, y_i$ が $x^\sigma_{i_l}, x^\sigma_{i_u}$ より共に小さい, または共に大きい時,
$$ \mathrm{Median}([x_0, x_1, \dots, x_{i-1}, x_i, x_{i+1}, \dots, x_{n-1}]) = \mathrm{Median}([x_0, x_1, \dots, x_{i-1}, y_i, x_{i+1}, \dots, x_{n-1}]), $$
で, $x_i, y_i$ が共に同じ区間 $[\alpha_j, \alpha_{j+1})$ に属すなら, つまり $\alpha_j \leq x_i, y_i \lt \alpha_{j+1}$ となるならば,
$$ \mathrm{Mode}([x_0, x_1, \dots, x_{i-1}, x_i, x_{i+1}, \dots, x_{n-1}]) = \mathrm{Mode}([x_0, x_1, \dots, x_{i-1}, y_i, x_{i+1}, \dots, x_{n-1}]), $$
である (最頻値が複数あるならそれぞれの値について等式が成り立つ).
標準的な中央値, 最頻値が外れ値に強いという性質はこの不変性から分かる.
一方で, 不変性からは勾配が 0 になる領域があるという性質も導かれ, 勾配降下法を用いる場合の損失関数として使いにくいという欠点にも繋がる.
(3) 一般化 $f$ 平均との関係式
一般化 f 平均での算術平均の代わりに標準的な中央値, 最頻値を用いた時, 代表値の決める平均 $\mu$ を変換することで元の中央値, 最頻値に一致するという性質がある.
中央値の場合, $f$ が狭義単調であれば, $x_0, x_1, \dots, x_{n-1}$ をソートした順序と $f(x_0), f(x_1), \dots, f(x_{n-1})$ をソートした順序は一致または逆順になるため, 前述の手続きで求めた $x^\sigma_{i_l}, x^\sigma_{i_u}$ によって,
$$ M_{f; \mathrm{Median}}(X) = f^{-1}\left(\mu\left(\left[f\left(x^\sigma_{i_l}\right), f\left(x^\sigma_{i_u}\right)\right]\right)\right) = M_{f; \mu}\left(\left[x^\sigma_{i_l}, x^\sigma_{i_u}\right]\right), $$
が得られ, $\left[x^\sigma_{i_l}, x^\sigma_{i_u}\right]$の $M_{f; \mu}$ による平均で定めた中央値に一致することが分かる.
最頻値では, 同じく $f$ が狭義単調であれば $f$ で写した時の順序が保たれるので, 区間の閾値として $f(\alpha_0), f(\alpha_1), \dots, f(\alpha_m)$ を与えると,
$$ x \in [\alpha_j, \alpha_{j+1}) \iff f(x) \in [f(\alpha_j), f(\alpha_{j+1})) \ \text{or} \ [f(\alpha_{j+1}), f(\alpha_j)) $$
から最頻区間のインデクスが一致することが分かり, 中央値と同じく, 最頻区間 $[\alpha_{j^*}, \alpha_{j^*+1})$ を用いて,
$$ M_{f; \mathrm{Mode}}(X) = f^{-1}(\mu([f(\alpha_{j^*}), f(\alpha_{j^*+1})])) = M_{f; \mu}([\alpha_{j^*}, \alpha_{j^*+1}]), $$
から $[\alpha_{j^*}, \alpha_{j^*+1}]$ の $M_{f; \mu}$ による平均で定めた最頻値となる.
-
一般的には, 統計学では確率変数を引数とする関数を統計量と呼ぶ. ここでの用法とほぼ同義. ↩
-
後の $x_i$ の出現率による確率分布から求めた中央値が標準的な中央値に大体一致することを考えると, 「標準的な期待値」も同じ確率分布から求めた期待値として定義し得る. しかし前述の通りそれは算術平均に一致するので, ここでは特に考えないことにする. ↩
-
ここでは閾値 $\alpha_0, \alpha_m$ として $\pm\infty$ を許すことにしている. これらを有限の値にすると $[\alpha_0, \alpha_m)$ に含まれない $x_i$ は計上されなくなり, $\pm\infty$ とすると最端区間 $[\alpha_0, \alpha_1), [\alpha_{m-1}, \alpha_m)$ が最頻区間となった場合に平均による最頻値が $\pm\infty$ になったりして, 一長一短なので目的に合わせた調整が必要. 閾値 $\alpha_j$ を $X$ から決めるのも1つの手である. ↩