$\require{cancel}$
毎回忘れる公式を試験時間内に導くための工夫をまとめます。
数学的な厳密さは無視し、実用性を重視した内容です。
なお、以下で紹介している公式は実際に公式解答でもいきなり使われているものばかりです。
証明せずに使ってよい、という事だと思いますので…すぐに出るようにしておかないと損ですね。
以下の表記を用います;
- pdf: 確率密度関数
- ${\rm i.i.d}$: 互いに独立に同一分布に従う
- $E[X]$: $X$の期待値
- $V[X]$: $X$の分散
ベクトルは、太字にしたりしなかったりしてます…。
全部太字がキレイなんですが面倒なんです、察してください。
pdfの変数変換の公式
$X \mapsto Y (X,Y$ はベクトル$)$の変換で、それぞれのpdfを$f_X, f_Y$ とすると、
$$ f_Y(y) = f_X(x) |{\rm det}J|$$
ヤコビアンの定義($\partial x$ が上か $\partial y$が上か)と
右辺or左辺のどっちに付けるのかよく忘れます。。
数学的に厳密な記述はこちらなど参照。
思い出し方
$X$,$Y$がスカラー変数の場合を考えます。
変数変換の定義式(?知らんけど) $P(Y < y) = P(X < x)$
の両辺の微分を取ると $ f_Y(y)dy = f_X(x)dx $
$$ \therefore f_Y(y) = f_X(x)\frac{dx}{dy} $$
$X$,$Y$がベクトル変数の場合はこの$dx/dy$を$|{\rm det}J|$に置き換えれば公式となります。
$J = \partial x/\partial y$ ($\partial y/\partial x$ ではなく!)も一発で分かります。
補足:この公式は毎回導いた方がいい
この公式は$X$と$Y$が$1:1$対応の場合しか使えませんので、
下記のような問題で公式をそのまま使うと失敗します。
しかし、上記の「思い出し方」はこのような場合にも応用が利きます。
例題(2017年 数理5):
$Z~N(0,1)$の時$W=Z^2$のpdfは?
→$P(W<w)=2 \times P(0<Z<z)$ を利用する。
詳細はこちら。
線形変換した変数の分散行列
$$
V[A\boldsymbol{X}] = A V[\boldsymbol{X}]A^T
$$
1次元の場合の、$V[aX] = a^2 V[x]$ の自然な拡張ではあるものの、
転置がどちらの$A$に付くのか分からなくなります。
思い出し方
$A$が$(m,n)$行列の場合を考えます(必然的に$\boldsymbol{X}$は$n$次元ベクトル)。
行列の積が何行何列になるのかは、以下のように考えればすぐ分かります。
例)$A\boldsymbol{X}$の場合、$(m,\cancel{n})$行列$\times (\cancel{n},1)$行列なので$(m,1)$行列($m$次元ベクトル)。
これを使えば、左辺 $V[A\boldsymbol{X}]$ は $m$次元ベクトルの分散なので$(m,m)$行列、
よって右辺も $(m,m)$ 行列のはずですが、
もし右辺$=A^T V[\boldsymbol{X}]A$ ならこれは$(m,m)$ 行列にはならないため
右辺$=A V[\boldsymbol{X}]A^T$と分かります。
実際、
$A V[\boldsymbol{X}]A^T$ は $(m,n)\times (n,n)\times (n,m)$ なので $(m,m)$ 行列、
$A^T V[\boldsymbol{X}]A$ は $(n,m)\times (n,n)\times (m,n)$ なので次数不整合で行列の掛け算ができません。
1変数正規分布の条件付期待値・分散
$X_1~N(\mu_1, \sigma_1^2)$, $X_2$同様の時、$X_1 | X_2~N$で、
\left\{ \,
\begin{aligned}
E[X_1 | X_2]&=\mu_1 + \rho \sigma_1 \times \frac{(x_2 - \mu_2)}{\sigma_2} \\
V[X_1 | X_2]&=\sigma_1^2 (1-\rho^2)
\end{aligned}
\right.
試験本番まで忘れずに暗記するのは難しいですよね。
数学的に厳密な記述はこちらなど参照。
$X_1 | X_2~N$は、「正規分布の線形結合は正規分布」で覚えます。
期待値の思い出し方
とりあえず下記を覚えておきます。
$$
z_1 = \rho z_2 \hspace{10pt}
\left(z_1=\frac{x_1-\mu_1}{\sigma_1}, \hspace{2pt} z_2も同様\right)
$$
これを$x_1$について解くと、
$$
x_1=\mu_1 + \rho \sigma_1 \times \frac{(x_2 - \mu_2)}{\sigma_2}
$$
となり、$x_1$を期待値だと思えば上記の公式が得られます。
分散の思い出し方
下記を暗記します。
V[X_1|X_2] = \frac{{\rm det}\Sigma}{V[X_2]}
\hspace{10pt}
\left(
\Sigma =
\left[
\begin{matrix} \sigma_1^2 & \sigma_{12} \\ \sigma_{12} & \sigma_2^2 \end{matrix}
\right]
,\hspace{10pt}
\sigma_{12} = \rho \sigma_1 \sigma_2
\right)
$P(X_1|X_2)=P(X_1, X_2) / P(X_2)$の分母分子の分散を取ったみたいでどうにか覚えられそうですね。
右辺をただ計算すれば
V[X_1|X_2] =
\frac
{\sigma_1^2 \sigma_2^2 - \sigma_{12}^2}
{\sigma_2^2}
=
\sigma_1^2 (1-\rho^2)
となり、公式が得られます。
多変数正規分布の条件付期待値・分散
$X_1$,$X_2$などがベクトル変数で、
X=
\left[
\begin{matrix} X_1 \\ X_2 \end{matrix}
\right]
~
N\left(
\left[
\begin{matrix} \mu_1 \\ \mu_2 \end{matrix}
\right]
,
\left[
\begin{matrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{matrix}
\right]
\right)
の時、
$X_1 | X_2~N$で、
\left\{ \,
\begin{aligned}
E[X_1 | X_2]&=\mu_1 + \Sigma_{12}\Sigma_{22}^{-1} (x_2 - \mu_2) \\
V[X_1 | X_2]&=\Sigma_{11} + \Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}
\end{aligned}
\right.
これを暗記できる人はいるのでしょうか。。。
数学的に厳密な記述はこちらなど参照。
期待値の思い出し方
1変数の場合の下記から導きます。
E[X_1 | X_2]=\mu_1 + \rho \sigma_1 \times \frac{(x_2 - \mu_2)}{\sigma_2}
これに$\rho = \sigma_{12} / (\sigma_1 \sigma_2)$を代入して$\sigma^2$を$\Sigma$で置き換えれば、
E[X_1 | X_2]=\mu_1 + \Sigma_{12} \times \frac{(x_2 - \mu_2)}{\Sigma_{22}}
後は${1/\Sigma_{22}}$を${\Sigma_{22}^{-1}}$と見做して分数の左側に出せば公式が得られます。
右側ではなく左側に出さないと次数不整合となり行列の掛け算ができません。
(線形変換した変数の分散行列、の思い出し方参照)
分散の思い出し方
同様に、1変数の場合の下記から導きます。
V[X_1 | X_2]=\sigma_1^2 (1-\rho^2)
これに$\rho = \sigma_{12} / (\sigma_1 \sigma_2)$を代入して$\sigma^2$を$\Sigma$で置き換えれば、
V[X_1 | X_2]=\Sigma_{11} \left(1-\frac{\Sigma_{12}^2}{\Sigma_{11}\Sigma_{22}}\right)
後はやはり${1/\Sigma_{22}}$を${\Sigma_{22}^{-1}}$と見做して$\Sigma_{12}^2 (=\Sigma_{12}\times\Sigma_{21})$の間に挟めば公式が得られます。
間に挟む形にしないと次数不整合となり行列の掛け算ができません。
(線形変換した変数の分散行列、の思い出し方参照)
重回帰の正規方程式
重回帰モデル$\boldsymbol{Y}=X\boldsymbol{\beta}+\boldsymbol{\epsilon} $に最小二乗法を適用すると
X^T\boldsymbol{Y}=X^TX\boldsymbol{\hat{\beta}}
最小二乗推定量$\boldsymbol{\hat{\beta}}$を得るための連立方程式です。
なお試験では$X^TX$が正則な場合が多く、
$\boldsymbol{\hat{\beta}} = (X^TX)^{-1}X^T\boldsymbol{Y}$ およびこれから得られる
$V[\boldsymbol{\hat{\beta}}] =\sigma^2 (X^TX)^{-1}I$ を使う場面も多いです(2015年数理3, 2014年理工学2など)。
思い出し方
まず、ほぼ $\boldsymbol{Y}=X\boldsymbol{\hat{\beta}} $ だと覚えておきます(モデル式で$\boldsymbol{\epsilon} $を無視した形)。
しかしこれだと$X$が正方行列でないため逆行列が定義できず、$\boldsymbol{\hat{\beta}} $について解けません。
$\boldsymbol{\hat{\beta}} $について解けるようにするために左から$X^T$を掛ければ公式が得られます($X^TX$は正方行列)。
なおこの公式に関しては、$\nabla_\beta ||\epsilon||^2=-2X^T(\boldsymbol{Y}-X\boldsymbol{\beta})=0$より簡単に得られます。
ここで$X$に転置が付く理由は、dim$(\beta)$元の連立方程式にするため、
と考えると覚えやすいですね。
チェビシェフの不等式
P(|X-\mu|>\epsilon ) < \frac{\sigma^2}{\epsilon^2}
一致推定量であることを証明する時などに使います(2015年数理4など)。
2つの不等号の向きがどっちなのか、$\epsilon$が分母なのか分子なのか、常に迷います。
思い出し方
下記の形で覚えておき、$a\sigma=\epsilon$と置いて公式を導きます。
P(|X-\mu|>a\sigma ) < \frac{1}{a^2}
この形であれば以下のように理解すると覚えやすいです。
- $X$が正規分布に従う時、$\mu \pm 3 \sigma$から外れる確率は$0.3$%(統計の常識)
- $X$の分布が不明な時、$\mu \pm 3 \sigma$から外れる確率は$1/9$(チェビシェフの常識)
参考
[1] 統計検定1級(人文科学)チートシート [正規分布]
https://qiita.com/jytwelve/items/46f39de383a1aa0a76cc
[2] 統計検定1級(統計数理) 公式まとめ
https://qiita.com/eycjur/items/5c9cd2db8fddc38a417b