序
確率統計において, 多様なデータを扱うための分布族として, 複合分布モデル, または階層モデルと呼ばれるものがあります. 例えば, 複合ポアソン分布や, ベイズ統計に出てくるベータ・二項分布などです.
これらの分布の期待値や分散は, 直接求めるのが難しいため, 以下に述べる2つの公式を用いることが多いです.
1つ目は 繰り返し期待値の法則 です. これは $X$, $Y$ を確率変数とする時, 下式で表されます.
$$
\mathrm{E}[X] = \mathrm{E}[\mathrm{E}[X|Y]].
$$
2つ目は 全分散の公式 です. これは $X$, $Y$ を確率変数とする時, 下式で表されます.
$$
\mathrm{Var}(X) = \mathrm{Var}(\mathrm{E}[X|Y]) + \mathrm{E}[\mathrm{Var}(X|Y)].
$$
これらの公式の証明は, 地道に計算を積み重ねればできますが, なぜ成立するかのエッセンスを掴むのが難しいと考えています.
そこで本記事では, 無限次元の線形代数と言える, Hilbert空間における正射影 の考え方を用いて, 以上の公式に幾何の解釈を与えながら証明してみます.
特に 全分散の公式をピタゴラスの定理から導出 します.
本記事の構成
これからの流れ
まずは, 全分散の公式をピタゴラスの定理から導出するまでの大まかな流れを, 途中の主張の証明を省略しながら述べます.
その後, 省略した証明を補足にて与えていきます.
注意
議論の簡単化のため, 本記事の確率変数は全て 離散型 とします.
条件付き期待値の復習
実現値 $y$ が与えられたとき, 条件 $Y=y$ の下での $X$ の条件付き期待値は以下で与えられます.
$$
\mathrm{E}[X|Y=y] = \sum_{x} x f_{X|Y}(x|y).
$$
ここで, 条件付き確率関数 $f_{X|Y}$ は, $Y$ の確率関数 $f_{Y}$, そして $X$ と $Y$ の同時確率関数 $f_{XY}$ を用いて, 次式で定義されるのでした:
$$
f_{X|Y}(x|y) = \frac{f_{XY}(x,y)}{f_{Y}(y)}.
$$
ところで条件付き期待値 $\mathrm{E}[X|Y=y]$ は, $y$ の関数と捉えられます.
\begin{align}
\mathbb{R} &\to \mathbb{R} \\
y &\mapsto \mathrm{E}[X|Y=y]
\end{align}
すると $\Omega$ を確率 $P$ を備えた全事象とするとき, $y = Y(\omega)$ としたものは $\Omega$ 上の合成関数, 即ち確率変数となります.
\begin{align}
\mathrm{E}[X|Y] : \Omega &\to \mathbb{R} \\
\omega &\mapsto \mathrm{E}[X|Y=Y(\omega)]
\end{align}
この $\mathrm{E}[X|Y]$ が, 本記事の主対象である 条件付き期待値 です.
Hilbert空間論の準備
Hilbert空間 $(\mathbf{H}, \langle \cdot,\cdot \rangle)$ とは, 完備な内積を備えた, 無限次元も許容するベクトル空間のことでした. ここでは直交性の議論を2つ思い出します.
ピタゴラスの定理
直交するベクトル $v, w \in \mathbf{H}$ に対して, ピタゴラスの定理 が成立します:
$$
| v + w |^2 = | v |^2 + | w |^2.
$$
射影定理と正射影作用素
閉部分空間 $\mathbf{M}$ が与えられたとき, $\mathbf{H}$ は, $\mathbf{M}$ と直交補空間 $\mathbf{M}^{\perp}$ により直交分解されます(射影定理):
$$
\mathbf{H} = \mathbf{M} \oplus \mathbf{M}^{\perp}.
$$
即ち, 各 $u \in \mathbf{H}$は唯一の $v \in \mathbf{M}$, $w \in \mathbf{M}^{\perp}$ の和で表せるのでした:
$$
u = v + w.
$$
そこで $u$ を $v$ に対応させる作用素 $\pi_{\mathbf{M}}$ を 正射影作用素 と呼ぶことにします.
以上のHilbert空間論の議論について, 詳しくは 藤田, 黒田, 関数解析I, 3.3節
などを参照してください.
正射影作用素としての条件付き期待値
さて, 条件付き期待値をHilbert空間論の枠組みで捉えていきます.
確率 $P$ を備えた全事象 $\Omega$ 上の確率変数であって, 2次モーメントを持つもの全体からなるベクトル空間を $\mathbf{H} = L^{2}(\Omega)$ とおきます. ただし確率1で同じ値を取るものは同一視します.
この空間は, 内積 $\langle \cdot, \cdot \rangle$ を次式で定義することでHilbert空間になります.
$$
\langle X_{1}, X_{2} \rangle = \mathrm{E}[X_{1}X_{2}].
$$
我々は $Y \in L^{2}(\Omega)$ を固定しておき, 条件付き期待値 $\mathrm{E}[ \cdot |Y]$ を, $L^{2}(\Omega)$ 上の作用素と考えます(像が $L^{2}(\Omega)$ の元であることは補足1を参照):
\begin{align}
\mathrm{E}[ \cdot |Y]: L^{2}(\Omega) &\to L^{2}(\Omega) \\
X &\mapsto \mathrm{E}[X|Y]
\end{align}
このとき $\pi_{\mathbf{M}_{Y}} = \mathrm{E}[ \cdot |Y]$ は, 下式で定まる閉部分空間 $\mathbf{M}_{Y} \subset L^{2}(\Omega)$ の正射影作用素であることが示されます(補足2を参照):
\begin{align}
\mathbf{M}_{Y} &= \{ X \in L^{2}(\Omega) \mid \pi_{\mathbf{M}_{Y}}(X) = X \} \\
&= \pi_{\mathbf{M}_{Y}}(L^{2}(\Omega)).
\end{align}
この $\mathbf{M}_{Y}$ は, 例えば以下を満たします(証明は補足3を参照). ただし定数値 $c \in \mathbb{R}$ をとる確率変数を, 同じ記号の $c$ で表します.
- $c \in \mathbf{M}_{Y}$.
- $Y \in \mathbf{M}_{Y}$.
ところで通常の期待値 $\mathrm{E}[ \cdot ]$ も $L^{2}(\Omega)$ 上で定めることができ, 定数値確率変数 $c$ 全体からなる閉部分空間 $\mathbf{M}_{0}$ への正射影作用素 $\pi_{\mathbf{M}_{0}}$ とみなせます(期待値の存在については補足4を参照).
以上の閉部分空間について, 次式が成立することに注意します.
$$
\mathbf{M}_{0} \subset \mathbf{M}_{Y}.
$$
繰り返し期待値の法則の解釈
解釈と証明
繰り返し期待値の法則とは, 下式が成立することでした.
$$
\mathrm{E}[X] = \mathrm{E}[\mathrm{E}[X|Y]].
$$
集合間の対応で書き直すと, 下図の可換図式となります.
上図は正射影の際, $\mathbf{M}_{0}$ に直接射影しても, 間にある $\mathbf{M}_{Y}$ を経由しても, 同じ結果が得られることを意味します.
つまり, 下図の状況となります.
これは一般のHilbert空間で成立する主張です(補足5を参照).
従って, 繰り返し期待値の法則も成立します.
注意
本記事では解釈のため $X \in L^{2}(\Omega)$ を仮定していますが, 繰り返し期待値の法則は, 1次モーメントのみ持つ $X$ に対しても成立します. しかし, この証明には地道な計算が必要と考えます.
全分散の公式の解釈
全分散の公式とは, 下式を指していました.
$$
\mathrm{Var}(X) = \mathrm{Var}(\mathrm{E}[X|Y]) + \mathrm{E}[\mathrm{Var}(X|Y)].
$$
これを解釈するための式変形から始めます.
公式左辺の変形
まず分散の定義に従って右辺を書き換えます.
$$
\mathrm{Var}(X) = \mathrm{E}[(X - \mathrm{E}[X])^{2}].
$$
公式右辺第1項の変形
外側の分散を定義通り書き換えると, 繰り返し期待値の法則を使える項が出てくるため, これを適用します.
\begin{align}
\mathrm{Var}(\mathrm{E}[X|Y]) &= \mathrm{E}[(\mathrm{E}[X|Y] - \mathrm{E}[\mathrm{E}[X|Y]])^{2}] \\
&= \mathrm{E}[(\mathrm{E}[X|Y] - \mathrm{E}[X])^{2}].
\end{align}
公式右辺第2項の変形
期待値内部の条件付き分散を定義通り書き換えると, また繰り返し期待値の法則を使える形になるため, これを適用します.
\begin{align}
\mathrm{E}[\mathrm{Var}(X|Y)] &= \mathrm{E}[\mathrm{E}[(X - \mathrm{E}[X|Y])^{2}|Y]] \\
&= \mathrm{E}[(X - \mathrm{E}[X|Y])^{2}].
\end{align}
公式の変形結果
各項の変形を経て, 公式は下式となりました.
$$
\mathrm{E}[(X - \mathrm{E}[X])^{2}] = \mathrm{E}[(\mathrm{E}[X|Y] - \mathrm{E}[X])^{2}] + \mathrm{E}[(X - \mathrm{E}[X|Y])^{2}].
$$
ピタゴラスの定理による解釈
さらに上式をノルムの式に書き換えます.
$$
| X -\mathrm{E}[X] |^{2} = | \mathrm{E}[X|Y] - \mathrm{E}[X] |^{2} + | X - \mathrm{E}[X|Y] |^{2}.
$$
ここで以下の置換を行います.
\begin{align}
v &= \mathrm{E}[X|Y] - \mathrm{E}[X], \\
w &= X - \mathrm{E}[X|Y].
\end{align}
すると示すべき公式は次式となりました.
$$
| v + w |^{2} = | v |^{2} + | w |^{2}.
$$
このとき $v \in \mathbf{M}_{Y}$ かつ $w \in \mathbf{M}_{Y}^{\perp}$ が成立します(補足6を参照).
特に$v, w$は直交するため, 先の公式はピタゴラスの定理から導かれます.
ゆえ, 全分散の公式が成立します.
所感
全分散の公式のご利益は, 直接計算するのが難しい $X$ の分散を, 計算しやすい $X|Y$ の条件付き期待値, 条件付き分散から求められるところにありました.
これはちょうど, 直接測定するのが難しい直角三角形の斜辺を, 計算しやすい他の辺の長さから求められる, ピタゴラスの定理のご利益に相当することが, 今回の議論から分かりました.
議論のまとめ
我々は条件付き期待値をHilbert空間論の正射影作用素と捉えることができました.
その結果, 繰り返し期待値の法則, 全分散の公式に, 幾何の解釈を与えながら示すことができました.
謝辞
本記事の執筆にあたり, 数理統計学勉強会のメンバーである行田康晃さん, 蟹圭佑さん, 遠藤由隆さん, 三澤航希さんとの議論を通じて理解を深めることができました.
また, 森桜子さんには記事全体の文章校正とMarkdown記法のアドバイスをしていただきました.
この場を借りて, 心より感謝申し上げます.
補足
補足1. 条件付き期待値が作用素, さらに有界であること
条件付き期待値が作用素として定まるためには, その像が $L^{2}(\Omega)$ に含まれる必要があります. 即ち $X$ が2次モーメントを持つとき, $\mathrm{E}[X|Y]$ も2次モーメントを持つ必要があります.
これは次の補題から従います.
補題. 以下の不等式が成立する.
$$
\mathrm{E}[\mathrm{E}[X|Y]^2] \leq \mathrm{E}[X^2].
$$
証明. 左辺の期待値の内側は $Y$ の関数のため, 次式で書き表す:
$$
\mathrm{E}[\mathrm{E}[X|Y]^2] = \sum_{y} \mathrm{E}[X|Y=y]^2 f_{Y}(y).
$$
この各項を, 凸関数 $\phi(\xi) = \xi^{2}$ と確率関数 $f_{X|Y}$ に関するJensenの不等式で評価する:
\begin{align}
\mathrm{E}[X|Y=y]^2 &= \left( \sum_{x} x f_{X|Y}(x|y) \right)^2 \\
&\leq \sum_{x} x^{2}f_{X|Y}(x|y).
\end{align}
すると示すべき不等式の左辺を最後まで評価できる:
\begin{align}
\mathrm{E}[\mathrm{E}[X|Y]^2] &\leq \sum_{x,y} x^{2}f_{X|Y}(x|y) f_{Y}(y) \\
&= \sum_{x,y} x^{2}f_{XY}(x,y) \\
&= \sum_{x} x^{2}f_{X}(x) \\
&= \mathrm{E}[X^2].
\end{align}
これで不等式は示された.
(証明終)
ところで証明した不等式の両辺の平方根をとり, ノルムの式で表すことで下式を得ます.
$$
| \mathrm{E}[X|Y] | \leq | X |.
$$
特に条件付き期待値は有界であることも示されました.
補足2. 条件付き期待値が正射影作用素であること
条件付き期待値 $\mathrm{E}[\cdot | Y]$ が正射影作用素であることを証明します. そのために, 次の事実を用います( 藤田, 黒田, 関数解析I, 定理4.7
から引用).
事実. Hilbert空間 $(\mathbf{H}, \langle \cdot, \cdot \rangle)$ 上の有界作用素 $\pi$ が, ある閉部分空間 $\mathbf{M}$ の正射影作用素であるための必要十分条件は, 以下の2条件を満たすことである.
- $\pi$ は冪等である. 即ち任意の $u \in \mathbf{H}$ に対して下式が成立する.
$$
\pi(\pi(u)) = \pi(u).
$$
- $\pi$ は自己随伴である. 即ち任意の $u_{1}, u_{2} \in \mathbf{H}$ に対して下式が成立する.
$$
\langle \pi(u_{1}), u_{2} \rangle = \langle u_{1}, \pi(u_{2}) \rangle.
$$
ここで閉部分空間 $\mathbf{M}$ は以下で定まる.
\mathbf{M} = \{ u \in \mathbf{H} \mid \pi(u) = u \}.
(事実終)
この事実に沿って, 条件付き期待値が正射影作用素であることを示します.
まず作用素の有界性は前節で示しました.
次に冪等性, 即ち下式を示します:
$$
\mathrm{E}[\mathrm{E}[X|Y]|Y] = \mathrm{E}[X|Y].
$$
左辺の内部の条件付き期待値は $Y$ の関数でした. そのため, 冪等性は次の一般的な補題から従います.
補題. $\mathbb{R}$ 上の可測関数 $\phi$ であって $\mathrm{E}[\phi(Y)^{2}] < \infty$ を満たすものに対し, 下式が成立する.
$$
\mathrm{E}[\phi(Y)|Y] = \phi(Y).
$$
特に $\phi(Y) \in \mathbf{M}_{Y}$ である.
証明. 条件を $Y=y$ とした時の次式を示せば十分.
$$
\mathrm{E}[\phi(Y)|Y=y] = \phi(y).
$$
左辺から変形して示していく. ただし $\delta_{y' y}$ をKroneckerのデルタとする.
\begin{align}
\mathrm{E}[\phi(Y)|Y=y] &= \sum_{y'} \phi(y') f_{Y|Y}(y'|y) \\
&= \sum_{y'} \phi(y') \frac{f_{YY}(y', y)}{f_{Y}(y)} \\
&= \sum_{y'} \phi(y') \frac{f_{Y}(y') \delta_{y' y}}{f_{Y}(y)} \\
&= \phi(y) \frac{f_{Y}(y)}{f_{Y}(y)} \\
&= \phi(y).
\end{align}
(補題の証明終)
これで冪等性は示されました.
最後に自己随伴性, 即ち下式を示します:
$$
\mathrm{E}[\mathrm{E}[X_{1}|Y]X_{2}] = \mathrm{E}[X_{1} \mathrm{E}[X_{2}|Y]].
$$
左辺から変形して示していきます.
\begin{align}
\mathrm{E}[\mathrm{E}[X_{1}|Y]X_{2}] &= \sum_{x_{2}, y} \mathrm{E}[X_{1}|Y=y] x_{2} f_{X_{2} Y}(x_{2}, y) \\
&= \sum_{x_{2}, y} \left( \sum_{x_{1}} x_{1} f_{X_{1}|Y}(x_{1}|y) \right) x_{2} f_{X_{2}Y}(x_{2}, y) \\
&= \sum_{x_{1},x_{2}, y} x_{1} x_{2} f_{X_{1}|Y}(x_{1}|y) f_{X_{2}Y}(x_{2}, y) \\
&= \sum_{x_{1}, x_{2}, y} x_{1} x_{2} \frac{f_{X_{1}Y}(x_{1}, y) f_{X_{2}Y}(x_{2}, y)}{f_{Y}(y)}. \\
\end{align}
最後の式で $X_{1}$ と $X_{2}$, 及び $x_{1}$ と $x_{2}$ を入れ替え, 逆の変形を行うことで, 右辺を得ます.
従って, 自己随伴性も示されました.
ゆえ, 先の事実より, 条件付き期待値 $\mathrm{E}[ \cdot |Y]$ は, 閉部分空間 $\mathbf{M}_{Y}$ の正射影作用素 $\pi_{\mathbf{M}_{Y}}$ であることが示されました.
補足3. 条件付き期待値から定まる閉部分空間の元について
以下を示します.
- $c \in \mathbf{M}_{Y}$.
- $Y \in \mathbf{M}_{Y}$.
即ち以下を証明します.
- $\mathrm{E}[c|Y] = c$.
- $\mathrm{E}[Y|Y] = Y$.
ところが, これらは前節の補題から直ちに従います.
補足4. 期待値の存在:2次モーメントを持てば1次モーメントも持つこと
本記事では $X$ が2次モーメントを持つことのみ仮定して, 期待値 $\mathrm{E}[X]$ を用いた議論をしましたが, $X$ が1次モーメントを持つかは明確に言及しませんでした. しかし, 2次モーメントを持てば, 1次モーメントを持つことが保証されます.
これは次の補題から従います. ただし全事象 $\Omega$ 上の確率変数であって, 1次モーメントを持つもの全体からなるベクトル空間を $L^{1}(\Omega)$ とおきます.
補題. 確率変数 $X \in L^{2}(\Omega)$ に対し次の不等式が成立する.
$$
\mathrm{E}[|X|] \leq \sqrt{\mathrm{E}[X^2]}.
$$
特に $L^{2}(\Omega) \subset L^{1}(\Omega)$ が成立する.
証明. 左辺を以下のように Cauchy-Schwarz の不等式で評価していくと良い.
\begin{align}
\mathrm{E}[|X|] &= \sum_{x} |x| f_{X}(x) \\
&= \sum_{x} \left(|x| \sqrt{f_{X}(x)} \right) \sqrt{f_{X}(x)} \\
&\leq \sqrt{\sum_{x} |x|^2 f_{X}(x)} \sqrt{\sum_{x'} f_{X}(x')} \\
&= \sqrt{\mathrm{E}[X^2]}.
\end{align}
(証明終)
補足5. 正射影が間の閉部分空間を経由しても同じ結果が得られること
一般的なHilbert空間における次の補題を示します.
補題. Hilbert空間 $\mathbf{H}$ と, 閉部分空間列 $\mathbf{L} \subset \mathbf{M} \subset \mathbf{H}$ が与えられたとする. この時, 各 $u \in \mathbf{H}$ に対して, 以下が成立する.
$$
\pi_{L}(u) = \pi_{L}(\pi_{M}(u)).
$$
証明. 準備として, 以下の閉部分空間を定義する.
\begin{align}
\mathbf{U}_{1} &= \mathbf{L}, \\
\mathbf{U}_{2} &= \mathbf{L}^{\perp} \cap \mathbf{M}, \\
\mathbf{U}_{3} &= \mathbf{M}^{\perp}.
\end{align}
この時, $\mathbf{H}$ は以下の直交分解を持つ.
$$
\mathbf{H} = \mathbf{U}_{1} \oplus \mathbf{U}_{2} \oplus \mathbf{U}_{3}.
$$
この分解を用いて証明していく.
まず $u \in \mathbf{H}$ を, 上記の直交分解に従って, 以下のように表す.
$$
u = u_{1} + u_{2} + u_{3}.
$$
すると示すべき式の左辺は下式となる.
$$
\pi_{L}(u) = u_{1}.
$$
次いで, 示すべき式の右辺は以下で変形できる.
\begin{align}
\pi_{L}(\pi_{M}(u)) &= \pi_{L}(u_{1} + u_{2}) \\
&= u_{1}.
\end{align}
ゆえ, 示すべき式は成立した.
(証明終)
補足6. 全分散の公式に直角三角形が現れること
全分散の公式の解釈において, 以下の置換を行いました.
\begin{align}
v &= \mathrm{E}[X|Y] - \mathrm{E}[X] \\
&= \pi_{\mathbf{M}_{Y}}(X) - \mathrm{E}[X], \\
w &= X - \mathrm{E}[X|Y] \\
&= X - \pi_{\mathbf{M}_{Y}}(X).
\end{align}
ここでは, $v \in \mathbf{M}_{Y}$ と $w \in \mathbf{M}_{Y}^{\perp}$ を確認します.
まず $v \in \mathbf{M}_{Y}$ を示します. そのために以下2点に注意します.
- $\pi_{\mathbf{M}_{Y}}(X) \in \mathbf{M}_{Y}$ であること.
- 実際, $\pi_{\mathbf{M}_{Y}}$ が $\mathbf{M}_{Y}$ への正射影作用素であることから従います.
- $\mathrm{E}[X] \in \mathbf{M}_{Y}$ であること.
- 実際, $c = \mathrm{E}[X]$ が定数値確率変数のため, 先に示した $c \in \mathbf{M}_{Y}$ から従います.
さて, $v$ はこれらの元の差であったため, $v \in \mathbf{M}_{Y}$ であることが示されました.
次に $w \in \mathbf{M}_{Y}^{\perp}$ は, 以下の通り各 $v' \in \mathbf{M}_{Y}$ に直交することが示せるため成立します.
\begin{align}
\langle w, v' \rangle &= \langle X - \pi_{\mathbf{M}_{Y}}(X), v' \rangle \\
&= \langle X, v' \rangle - \langle \pi_{\mathbf{M}_{Y}}(X), v' \rangle \\
&= \langle X, v' \rangle - \langle X, \pi_{\mathbf{M}_{Y}}(v') \rangle \\
&= \langle X, v' \rangle - \langle X, v' \rangle \\
&= 0.
\end{align}