詳細は各専門書や別ページを参照。
1.確率密度関数 (Probability Density Function: PDF)
正規分布 $N(\mu, \sigma^2)$ のPDFは
$$
f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)
$$
2.モーメント母関数 (Moment Generating Function: MGF)
[性質]
正規分布 $X \sim N(\mu, \sigma^2)$ のMGF $M_X(t)$ は
$$M_X(t) = E[e^{tX}] = \exp\left(\mu t + \frac{1}{2}\sigma^2 t^2\right)$$
[説明]
$$M_X(t) = E[e^{tX}]$$
$$= \int_{-\infty}^{\infty} \exp(tx) f(x)$$
$$= \int_{-\infty}^{\infty} \exp(tx) \cdot \frac{1}{\sqrt{2\pi\sigma^2}} \exp(-\frac{(x - \mu)^2}{2\sigma^2}) dx
$$
$$= \int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma^2}} \exp(tx -\frac{(x - \mu)^2}{2\sigma^2}) dx
$$
ガウス積分の形に近づけるために、eの中身を平方完成をする。
$$\exp(tx -\frac{(x - \mu)^2}{2\sigma^2}) =
$$
$$= \exp(tx -\frac{x^2 - 2\mu x + \mu^2}{2\sigma^2})
$$
$$= \exp(-\frac{1}{2\sigma^2} ((x^2 - 2\mu x + \mu^2) - 2t\sigma^2x))
$$
$$= \exp(-\frac{1}{2\sigma^2} (x^2 - 2(\mu + t\sigma^2)x + \mu^2)
$$
$$= \exp(-\frac{1}{2\sigma^2} ((x - (\mu + t\sigma^2))^2 + \mu^2 - (\mu + t\sigma^2)^2))
$$
$$= \exp(-\frac{1}{2\sigma^2} ((x - (\mu + t\sigma^2))^2 - (2\mu t \sigma^2 + t^2\sigma^4)))
$$
$$= \exp(-\frac{1}{2\sigma^2} ((x - (\mu + t\sigma^2))^2) \cdot \exp( \mu t) \cdot \exp(\frac{1}{2}t^2\sigma^2)
$$
よってMGFは
$$M_X(t) = \int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi\sigma^2}} \exp(-\frac{1}{2\sigma^2} ((x - (\mu + t\sigma^2))^2) \cdot \exp( \mu t) \cdot \exp(\frac{1}{2}t^2\sigma^2) dx$$
$$= \frac{1}{\sqrt{2\pi\sigma^2}} \cdot \exp( \mu t) \cdot \exp(\frac{1}{2}t^2\sigma^2) \int_{-\infty}^{\infty} \exp(-\frac{1}{2\sigma^2} ((x - (\mu + t\sigma^2))^2) dx$$
ここで$ Y = X - (\mu + t\sigma^2)$、$Z = \frac{1}{\sqrt{2\sigma^2}}Y$とすると
$$\frac{1}{\sqrt{2\pi\sigma^2}} \cdot \exp( \mu t) \cdot \exp(\frac{1}{2}t^2\sigma^2) \int_{-\infty}^{\infty} \exp(-\frac{1}{2\sigma^2} ((x - (\mu + t\sigma^2))^2) dx$$
$$= \frac{1}{\sqrt{2\pi\sigma^2}} \cdot \exp( \mu t) \cdot \exp(\frac{1}{2}t^2\sigma^2) \int_{-\infty}^{\infty} \exp(-z^2) \cdot \sqrt{2\sigma^2} dz$$
$$= \frac{1}{\sqrt{2\pi\sigma^2}} \cdot \exp( \mu t) \cdot \exp(\frac{1}{2}t^2\sigma^2) \cdot \sqrt{2\sigma^2} \int_{-\infty}^{\infty} \exp(-z^2) dz$$
$$= \exp( \mu t + \frac{1}{2}\sigma^2 t^2)
$$
(ガウス積分より $\int_{-\infty}^{\infty} \exp(-z^2) dz$ は $\sqrt{\pi}$)
[メモ]
期待値とMGFの定義を抑える。
正規分布はガウス積分と仲がいい。
平方完成すると指数の部分をガウス積分と同じ形にできる。
3.Z変換 (Z-transformation)
確率変数Xが正規分布に従っているとき、$Z = \frac{X - \mu}{\sigma}$とすると
$$
f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)
$$
$$
= \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{1}{2} \left(\frac{x - \mu}{\sigma}\right)^2 \right)
$$
$$
= \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(- \frac{1}{2} z^2 \right) \cdot \sigma
$$
$$
= \frac{1}{\sqrt{2\pi}} \exp\left(- \frac{1}{2} z^2 \right)
$$
$$
= \phi(z) \text{ (標準正規分布)}
$$
E[Z]
$Z = \frac{X - \mu}{\sigma}$ の期待値は
$$\mathbb{E}[Z] = \mathbb{E}\left[\frac{X - \mu}{\sigma}\right]$$
$$\mathbb{E}[Z] = \frac{1}{\sigma}\mathbb{E}[X - \mu]$$
$$= \frac{1}{\sigma}(\mu - \mu)$$$$= \frac{1}{\sigma} \cdot 0$$
$$= 0$$
よって、Z変換後の期待値は $0$。
Var(Z)
$Z = \frac{X - \mu}{\sigma}$ の分散は
$$\text{Var}(Z) = \text{Var}\left(\frac{X - \mu}{\sigma}\right)$$
$$\text{Var}(Z) = \left(\frac{1}{\sigma}\right)^2 \text{Var}(X - \mu)$$
$$= \frac{1}{\sigma^2} \text{Var}(X - \mu)$$
$$= \frac{1}{\sigma^2}\text{Var}(X)$$
$$= \frac{1}{\sigma^2} \cdot \sigma^2$$
$$= 1$$
よって、Z変換後の分散は $1$ 。
[メモ]
期待値と分散の性質を抑える
Z変換後も定義域は変わらず $(-\infty, \infty) $
4.線形変換 (Linear transformation)
[性質]
確率変数 $X$ が正規分布 $N(\mu, \sigma^2)$ に従うとする。線形変換 $Y = aX + b$は以下に従う。
$$aX + b \sim N(a\mu + b, a^2\sigma^2)$$
[説明]
確率変数 $X$ が正規分布 $N(\mu, \sigma^2)$ に従うとすると、MGFは
$M_X(t) = \exp\left(\mu t + \frac{1}{2}\sigma^2 t^2\right)$
$a$ と $b$ を定数($a \ne 0$)として、線形変換 $Y = aX + b$ より
$$M_Y(t) = E[e^{tY}] = E[e^{t(aX + b)}] = E[e^{atX + bt}] = E[e^{atX} e^{bt}]$$
期待値の線形性より、$e^{bt}$ は定数として期待値の外に出す。
$$M_Y(t) = e^{bt} E[e^{atX}]$$
$$= e^{bt} M_X(at)$$
ここで、
$$M_X(at) = \exp\left(\mu (at) + \frac{1}{2}\sigma^2 (at)^2\right) = \exp\left(a\mu t + \frac{1}{2}\sigma^2 a^2 t^2\right)$$
よって、
$$M_Y(t) = e^{bt} \exp\left(a\mu t + \frac{1}{2}a^2\sigma^2 t^2\right)$$
$$= \exp\left(bt + a\mu t + \frac{1}{2}a^2\sigma^2 t^2\right)$$
$$= \exp\left((a\mu + b)t + \frac{1}{2}(a^2\sigma^2) t^2\right)$$
元のMGFと比較するとMGFの一意性より
平均はMGFの $t$ の係数から $(a\mu + b)$、分散は $t^2/2$ の係数から $(a^2\sigma^2)$ となる。
$$\therefore aX + b \sim N(a\mu + b, a^2\sigma^2)$$
5.再生性 (Reproductivity)
[性質]
互いに独立な確率変数 $X_1, \dots, X_n$ がそれぞれ正規分布 $N(\mu_i, \sigma_i^2)$ に従うとする($X_i \sim N(\mu_i, \sigma_i^2)$)。
この時、これらの和は
$$\sum_{i=1}^n X_i \sim N\left(\sum_{i=1}^n \mu_i, \sum_{i=1}^n \sigma_i^2\right)$$
[説明]
それぞれのMGFは
$M_{X_i}(t) = \exp\left(\mu_i t + \frac{1}{2}\sigma_i^2 t^2\right)$
$S_n$ のMGF $M_{S_n}(t)$ は
$$M_{S_n}(t) = E[e^{tS_n}] = E[e^{t(X_1 + X_2 + \dots + X_n)}] = E[e^{tX_1} e^{tX_2} \dots e^{tX_n}]$$
確率変数 $X_1, \dots, X_n$ は互いに独立であるため、積の期待値は期待値の積になる。
$$E[e^{tX_1} e^{tX_2} \dots e^{tX_n}] = E[e^{tX_1}] E[e^{tX_2}] \dots E[e^{tX_n}]$$
これはそれぞれの確率変数のMGFの積になっているため、
$$M_{S_n}(t) = M_{X_1}(t) M_{X_2}(t) \dots M_{X_n}(t)$$
$$= \exp\left(\mu_1 t + \frac{1}{2}\sigma_1^2 t^2\right) \times \exp\left(\mu_2 t + \frac{1}{2}\sigma_2^2 t^2\right) \times \dots \times \exp\left(\mu_n t + \frac{1}{2}\sigma_n^2 t^2\right)$$
$$= \exp\left(\left(\mu_1 t + \frac{1}{2}\sigma_1^2 t^2\right) + \left(\mu_2 t + \frac{1}{2}\sigma_2^2 t^2\right) + \dots + \left(\mu_n t + \frac{1}{2}\sigma_n^2 t^2\right)\right)$$
$$= \exp\left((\mu_1 + \mu_2 + \dots + \mu_n)t + \frac{1}{2}(\sigma_1^2 + \sigma_2^2 + \dots + \sigma_n^2) t^2\right)$$
$$= \exp\left(\left(\sum_{i=1}^n \mu_i\right) t + \frac{1}{2}\left(\sum_{i=1}^n \sigma_i^2\right) t^2\right)$$
元のMGFと比較するとMGFの一意性より
平均は $t$ の係数から $\sum_{i=1}^n \mu_i$、分散は $t^2/2$ の係数から $\sum_{i=1}^n \sigma_i^2$ となる。
$$\therefore \sum_{i=1}^n X_i \sim N\left(\sum_{i=1}^n \mu_i, \sum_{i=1}^n \sigma_i^2\right)$$
6.最尤推定 (Maximum Likelihood Estimation)
[性質]
$$\hat{\mu} = \frac{1}{n}\sum_{i=1}^n x_i = \bar{x}$$
$$\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (x_i-\hat{\mu})^2 = \frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2$$
($\hat{\mu}$, $\hat{\sigma^2}$ は最尤推定量)
[説明]
尤度関数 (Likelihood Function) と 対数尤度関数 (Log-Likelihood Function)
データが独立であると仮定すると、
尤度関数
$$L(\theta | x_1, \dots, x_n) = \prod_{i=1}^n f(x_i | \theta)$$
対数尤度関数
$$\ell(\theta) = \log L(\theta)$$
$$= \log \left(\prod_{i=1}^n f(x_i | \theta)\right)$$
$$ = \sum_{i=1}^n \log f(x_i | \theta)$$
正規分布の最尤推定
観測データ $x_1, \dots, x_n$ が独立に正規分布 $N(\mu, \sigma^2)$ に従うと仮定し、未知のパラメータ $\mu$ と $\sigma^2$ を最尤法で推定する。
正規分布のPDFは
$$f(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$
尤度関数 $L(\mu, \sigma^2)$ は
$$L(\mu, \sigma^2) = \prod_{i=1}^n f(x_i|\mu, \sigma^2)$$
$$= \prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right)$$
$$= \left(\frac{1}{2\pi\sigma^2}\right)^{n/2} \exp\left(-\sum_{i=1}^n \frac{(x_i-\mu)^2}{2\sigma^2}\right)$$
対数尤度関数 $\ell(\mu, \sigma^2)$ は
$$\ell(\mu, \sigma^2) = \log L(\mu, \sigma^2) = -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2$$
最尤推定量 $\hat{\mu}$ と $\hat{\sigma}^2$ を求めるために、$\mu$ と $\sigma^2$ に関してそれぞれ偏微分しゼロとおく。
$\mu$ に関する偏導関数:
$x_1$に注目して$\mu$を偏微分すると
$$\frac{\partial}{\partial \mu} \left(-\frac{1}{2\sigma^2} (x_1-\mu)^2\right)$$
$$= -\frac{1}{2\sigma^2} \cdot 2(x_1-\mu) \cdot (-1) $$
$$= \frac{1}{\sigma^2} \cdot (x_1-\mu)$$
となり、ほかの項も同様に偏微分できるため
$$\frac{\partial \ell}{\partial \mu} = \frac{\partial}{\partial \mu} \left(-\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2\right) = -\frac{1}{2\sigma^2} \sum_{i=1}^n 2(x_i-\mu)(-1) = \frac{1}{\sigma^2} \sum_{i=1}^n (x_i-\mu)$$
$\frac{\partial \ell}{\partial \mu} = 0$ とおくと、
$$\sum_{i=1}^n (x_i-\mu) = 0$$
$$= \sum_{i=1}^n x_i - n\mu = 0 $$
$$= n\mu = \sum_{i=1}^n x_i $$
$$\therefore \hat{\mu} = \frac{1}{n}\sum_{i=1}^n x_i = \bar{x}$$
($\bar{x}$は標本平均)
$\sigma^2$ に関する偏導関数:
$$\frac{\partial \ell}{\partial \sigma^2} = \frac{\partial}{\partial \sigma^2} \left(-\frac{n}{2}\log(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2\right)$$
$$= -\frac{n}{2} \frac{1}{\sigma^2} - \frac{1}{2} \left(-\frac{1}{(\sigma^2)^2}\right) \sum_{i=1}^n (x_i-\mu)^2 = -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^n (x_i-\mu)^2$$
$\frac{\partial \ell}{\partial \sigma^2} = 0$ とおくと、
$$-\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^n (x_i-\mu)^2 = 0$$
$$n\sigma^2 = \sum_{i=1}^n (x_i-\mu)^2$$
したがって、$\sigma^2$ の最尤推定量 $\hat{\sigma}^2$ は、$\mu$ のところにその最尤推定量 $\hat{\mu} = \bar{x}$ を代入して、
$$\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (x_i-\hat{\mu})^2 = \frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2$$
これは、標本分散になっている。
[メモ]
最尤推定量 $\hat{\mu}$ は不偏推定量だが、 $\hat{\sigma}^2$ は不偏推定量ではない。
7.Fisher情報量 (Fisher Information)
スコア関数の定義
スコア関数は対数尤度関数のパラメータの1階偏微分
$$ S(\theta) = \frac{\partial}{\partial\theta} \ell(\theta)$$
Fisher情報量の定義
Fisher情報量はスコア関数の分散
$$ I(\theta) = Var(S(\theta))$$
計算の観点で次の一番右の形をよく利用する。
$$
I(\theta) = Var(S(\theta)) = E[ ( \frac{\partial}{\partial\theta} \ell(\theta))^2] = -E[ \frac{\partial^2}{\partial\theta^2} \ell(\theta) ]
$$
(スコア関数の期待値が0のため)
多パラメータの時
$$
I_{i,j}(\boldsymbol{\theta}) = Cov \left(\frac{\partial}{\partial \theta_i} \log L(\boldsymbol{\theta}), \frac{\partial}{\partial \theta_j} \log L(\boldsymbol{\theta}) \right) = E[ \frac{\partial}{\partial \theta_i} \log L(\boldsymbol{\theta}) \cdot \frac{\partial}{\partial \theta_j} \log L(\boldsymbol{\theta}) ] \text{(※スコア関数の期待値は0のため)}
$$
正規分布に関して導出
対数尤度関数
$$
\ell(\mu, \sigma^2) = \log L(\mu, \sigma^2) = -\frac{n}{2}\log(2\pi) - \frac{n}{2}\log(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2
$$
スコア関数 (Score Function)
$\mu$ について:
$S(\mu) = \frac{\partial}{\partial\mu} \ell(\mu, \sigma^2) = \frac{\partial}{\partial\mu} \left( -\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\mu)^2 \right)$
$= -\frac{1}{2\sigma^2} \sum_{i=1}^n 2(x_i-\mu)(-1)$
$= \frac{1}{\sigma^2}\sum_{i=1}^n (x_i-\mu)$
$\sigma^2$ について:
$S(\sigma^2) = \frac{\partial}{\partial\sigma^2} \ell(\mu, \sigma^2) = -\frac{n}{2\sigma^2} - \frac{1}{2} \left(-\frac{1}{(\sigma^2)^2}\right) \sum_{i=1}^n (x_i-\mu)^2$
$= -\frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2}\sum_{i=1}^n (x_i-\mu)^2$
Fisher情報量
$$
I_{\mu, \mu} = E [ { S(\mu) }^2 ] = E[(\frac{1}{\sigma^2}\sum_{i=1}^n (x_i-\mu) )^2] = E[\frac{1}{\sigma^4}\sum_{i=1}^n (x_i-\mu)^2] = \frac{1}{\sigma^4} \cdot n \cdot \sigma^2 = \frac{n}{\sigma^2}
$$
$$I_{\sigma^2,\sigma^2} = -E \left[ \frac{\partial^2}{\partial(\sigma^2)^2} \ell(\mu, \sigma^2) \right]
$$
$$
= -E \left[\frac{\partial}{\partial \sigma^2} S(\sigma^2) \right]
$$
$$
= -E \left[ - \frac{n}{2(\sigma^2)^2} \cdot (-1) + \frac{1}{2(\sigma^2)^3} \cdot (-2) \cdot \sum_{i=1}^n (x_i-\mu)^2 \right]
$$
$$
= - \left( \frac{n}{2(\sigma^2)^2} - \frac{2}{2(\sigma^2)^3} \cdot E \left[\sum_{i=1}^n (x_i-\mu)^2 \right] \right)
$$
$$
= - \left( \frac{n}{2(\sigma^2)^2} - \frac{2}{2(\sigma^2)^3} \cdot n\sigma^2 \right)
$$
$$
= \frac{n}{2(\sigma^2)^2} = \frac{n}{2\sigma^4}
$$
$$
I_{\mu, \sigma^2} = -E \left[\frac{\partial^2}{\partial\mu\partial\sigma^2} \ell(\mu, \sigma^2) \right] = -E\left[ -\frac{1}{(\sigma^2)^2}\sum_{i=1}^n (x_i-\mu) \right] = -\frac{1}{(\sigma^2)^2} \sum_{i=1}^n E\left[(x_i-\mu) \right] = 0
$$
$$
\therefore I(\mu, \sigma^2) = \begin{pmatrix} \frac{n}{\sigma^2} & 0 \\ 0 & \frac{n}{2\sigma^4} \end{pmatrix}
$$
[メモ]
- 対数尤度関数、スコア関数、Fisher情報量の関係を抑える。
- スコア関数の期待値は0
- 正規分布のパラメータ $(\mu, \sigma^2)$ に対するFisher情報量は2×2の行列
- パラメータに対して「ヘッセ行列の期待値にマイナス」
- 参考