2.4.3節の式(2.43)の別のルートでの導出法
注意点
本記事が初投稿です。手持ちの統計学の教科書を元に導出していき、間違いがないように注意して書いていきますが私の勘違いやタイプミスがあるかもしれない為、疑いの目を常に向けながら読んでいただけると安全かと思います。
設定と定義
記号の使い方は参考にした教科書である「入門・演習 数理統計(野田一雄・宮岡悦良 著)」で揃えさせていただきます。
- $X, Y$はある結合確率分布に従う確率変数
- $d(X)$は$X$の値を元にして作られるYの予測値
- $f_X(x)$は$X$の周辺確率関数($X$が連続型の場合は周辺確率密度関数)
- $f_Y(y)$は$Y$の周辺確率関数($Y$が連続型の場合は周辺確率密度関数)
- $f_{Y|X}(y|x)$は$X=x$が与えられた時の$Y$の条件付き確率関数(Yが連続型の場合は条件付き確率密度関数)
- $f_{X, Y}(x, y)$は結合確率関数($X, Y$が連続型の場合は結合確率密度関数)
- $X, Y$の期待値や条件付き期待値は存在すると仮定します。
#####定義
E(X) := \left\{
\begin{array}{}
\sum_i x_i f_X(x_i) & (離散型確率変数の場合) \\ \int_{-\infty}^\infty xf_X(x)dx & (連続型確率変数の場合) \end{array}
\right.
f_{Y|X}(y|x) := \frac{f_{X, Y}(x, y)}{f_Y(y)}
Var(X) := E[\{X-E(X)\}^2] = \left\{
\begin{array}{}
\sum_i \{x_i-E(X)\}^2 f_X(x_i) & (離散型確率変数の場合) \\ \int_{-\infty}^\infty \{x-E(X)\}^2f_X(x)dx & (連続型確率変数の場合) \end{array}
\right.
E(Y|X=x) = E[Y|x] := \left\{
\begin{array}{}
\sum_y y f_{Y|X}(y|x) & (離散型確率変数の場合) \\ \int_{-\infty}^\infty y f_{Y|X}(y|x)dx & (連続型確率変数の場合) \end{array}
\right.
方針
先に式(2.43)を示すときに用いる命題を証明してから、その命題を使うことで結論を得たいと思います。
命題の証明
#####命題
$X$を確率変数とする。このとき、
任意の実数$c$に対して、$E[(X-c)^2] \geqq Var(X) = E[(X-E(X))^2]$
#####証明
$c$を任意の実数とし、$E(X) = \mu$とする。
この時、
\begin{align}
E[(X-c)^2] &= E[\{X-\mu-(c-\mu)\}^2]\\
&= E[(X - \mu)^2 -2(c-\mu)(X-\mu) + (c-\mu)^2]\\
&= E[(X - \mu)^2] -2(c-\mu)E(X-\mu) + (c-\mu)^2\ (\because 期待値の加法性と定数の期待値が定数になることから)\\
&= Var(X) -2(c-\mu)\{E(x)-\mu\} + (c-\mu)^2\ \ \ \ \ (\because上と同じ性質とVar(X)の定義から)\\
&= Var(X) + (c-\mu)^2\\
\end{align}
であり、$c, \mu$はどちらも実数であるから$(c-\mu)^2 \geqq 0$を満たす。
よって、$Var(X) + (c-\mu)^2 \geqq Var(X) + 0 = Var(X)$
以上からこの命題は成り立つことが示されました。
######参考:
命題:「入門・演習数理統計」p81 (2.6.3)
######注意点
参考文献をお持ちの方はわかるかもしれませんが、実は本書内では命題として述べられているわけではなく単に
"(2.6.3) cがどんな定数であっても$E[(X-c)^2] \geqq Var(X)$" (上記書籍のp81(2.6.3)より引用)
と述べられているので私の方で式が成り立つように命題として加筆させていただきました。
その為、条件として不足しているものがもしあれば指摘していただけると大変ありがたいです。
(2.4.3)の導出
示すべきことは
任意のX=xに対して、E[\{Y-d(x)\}^2] \geqq E[\{Y-E(Y|x)\}^2]
が成り立つことです。
######導出
\begin{align}
&任意のX = xに対して、d(x)は定数であり、Yの期待値はE(Y|x) という条件付き期待値である。\\
&よって命題より、E[\{Y-d(x)\}^2] \geqq E[\{Y-E(Y|x)\}^2]が成り立つ。
\end{align}
以上から
$X=x$が与えられた時の$E[(Y-d(x))^2]$が最小になるような予測値$d^*(x)$は
d^*(x) = E(Y|x)
により与えられることが示せました。これが「これならわかる深層学習入門」(2.43)の主張になります。
以上でこの記事は終了になります。お付き合いいただきありがとうございました。
誤りがございましたら指摘していただけると幸いです。
参考文献
- これならわかる深層学習入門(滝雅人 著)
- 入門・演習数理統計(野田一雄・宮岡悦良 著)