結論から書きます
- 標準化は単なるデータの変換であり、データを生成した確率分布が正規分布であることを必ずしも仮定しているわけではない
- 正規分布以外の確率分布から生成されたデータでも、標準化を行うとちゃんと標本平均0、標本分散1になる
- 標本平均0、標本分散1だからといって、データが従う分布が期待値0、分散1の正規分布だというわけではない
- しかし、データが従う分布が正規分布であると仮定した場合、その正規分布の期待値と分散を対数尤度最大化によって求めると、それぞれ標本平均、標本分散の値になる
結論の補足
今までなんとなく、「どんなデータも標準化すれば標準正規分布に従うようになるのでは」という大いなる誤解をしていましたが、個人的にそれが解消されたという話です。
そもそも、「平均」と「分散」という言葉を使っていますが、標準化に関係しているのは、「標本平均」や「標本分散」であり、データを生成する真の確率分布に関しては何一つ語っていないのです。ここをごっちゃにしていたのが誤解の種でした。
何らかの正規分布に従うデータに対して標準化を行うと、標準化後のデータが標準正規分布に従うようになるだけであり、もともと正規分布に従っていないデータに対して標準化を行ったところで、標準正規分布に従うようにはならないということです。
標準化によって標本平均0、標本分散1になることの確かめ
$n$個のデータ$x_{1},x_{2},\cdots ,x_{n}$があり、その標本平均が$\mu_{x}$で標本分散が$\sigma_{x}^{2}$であるとする。
\mu_{x} = \frac{1}{n}\sum_{i=1}^{n}x_{i}
\begin{align}
\sigma_{x} &= \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\mu_{x})^2} \\
&= \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_{i}-\frac{1}{n}\sum_{j=1}^{n}x_{j})^2} \\
\end{align}
標準化した後のデータをそれぞれ$y_{1},y_{2},\cdots ,y_{n}$とすると、
y_{i} = \frac{x_{i}-\mu_{x}}{\sigma_{x}}
となる。これらの標本平均$\mu_{y}$は、
\begin{align}
\mu_{y} &= \frac{1}{n}\sum_{i=1}^{n}y_{i} \\
&= \frac{1}{n}\sum_{i=1}^{n}\frac{x_{i}-\mu_{x}}{\sigma_{x}} \\
&= \frac{1}{n}\cdot\frac{1}{\sigma_{x}}\sum_{i=1}^{n}(x_{i}-\mu_{x}) \\
&= \frac{1}{n}\cdot\frac{1}{\sigma_{x}}\Big\{\sum_{i=1}^{n}(x_{i}-\frac{1}{n}\sum_{j=1}^{n}x_{j})\Big\} \\
&= \frac{1}{n}\cdot\frac{1}{\sigma_{x}}\Big\{\{x_{1}-\frac{1}{n}(x_{1}+x_{2}+\cdots +x_{n})\}\\
& \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ +\{x_{2}-\frac{1}{n}(x_{1}+x_{2}+\cdots +x_{n})\} + \cdots \\
& \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ +\{x_{n}-\frac{1}{n}(x_{1}+x_{2}+\cdots +x_{n})\}\Big\} \\
&= \frac{1}{n}\cdot\frac{1}{\sigma_{x}}\Big\{(x_{1}+x_{2}+\cdots +x_{n})-\frac{1}{n}(x_{1}+x_{2}+\cdots +x_{n})\cdot n\Big\} \\
&=0
\end{align}
標本分散$\sigma_{y}^2$は、
\begin{align}
\sigma_{y}^2 &= \frac{1}{n}\sum_{i=1}^{n}(y_{i}-\mu_{y})^2 \\
&= \frac{1}{n}\sum_{i=1}^{n}y_{i}^2 \\
&= \frac{1}{n}\sum_{i=1}^{n}\Big(\frac{x_{i}-\mu_{x}}{\sigma_{x}}\Big)^2 \\
&= \frac{1}{n}\sum_{i=1}^{n}\Big(\frac{x_{i}-\frac{1}{n}\sum_{j=1}^{n}x_{j}}{\sqrt{\frac{1}{n}\sum_{k=1}^{n}(x_{k}-\frac{1}{n}\sum_{l=1}^{n}x_{l})^2}}\Big)^2 \\
&= \frac{1}{n}\sum_{i=1}^{n}\frac{\Big(x_{i}-\frac{1}{n}\sum_{j=1}^{n}x_{j}\Big)^2}{\frac{1}{n}\sum_{k=1}^{n}\Big(x_{k}-\frac{1}{n}\sum_{l=1}^{n}x_{l}\Big)^2} \\
&=\sum_{i=1}^{n}\frac{\Big(x_{i}-\frac{1}{n}\sum_{j=1}^{n}x_{j}\Big)^2}{\sum_{k=1}^{n}\Big(x_{k}-\frac{1}{n}\sum_{l=1}^{n}x_{l}\Big)^2} \\
&=\frac{\sum_{i=1}^{n}\Big(x_{i}-\frac{1}{n}\sum_{j=1}^{n}x_{j}\Big)^2}{\sum_{k=1}^{n}\Big(x_{k}-\frac{1}{n}\sum_{l=1}^{n}x_{l}\Big)^2} \\
&=1
\end{align}
よって$\mu_{y}=0$、$\sigma_{y}=1$
特に背後の確率分布の仮定をしているわけではありませんので、全てのデータに対して成り立ちます。
正規分布の期待値と分散を対数尤度最大化によって求めてみる
$n$個のデータ$x_{1},x_{2},\cdots ,x_{n}$があり、その標本平均が$\mu_{x}$で標本分散が$\sigma_{x}^{2}$であるとする。
ここで、これらのデータは正規分布に従っていると仮定すると、尤度$L$は
\begin{align}
L &= \prod_{i=1}^{n} \Big\{ \frac{1}{\sqrt{2\pi\sigma^2}}\exp\Big(-\frac{1}{2\sigma^2}(x_{i}-\mu)^2\Big)\Big\}\\
\end{align}
となる。ここで、$\mu$と$\sigma^2$はこれから求める、データを生成する分布の平均と分散であり、標本平均や標本分散ではない点に注意。(結果的にはそうなりますが)
対数尤度は、
\begin{align}
\log L &= \sum_{i=1}^{n} \log \Big\{ \frac{1}{\sqrt{2\pi\sigma^2}}\exp\Big(-\frac{1}{2\sigma^2}(x_{i}-\mu)^2\Big)\Big\}\\
&= \sum_{i=1}^{n} \Big\{\log \Big( \frac{1}{\sqrt{2\pi\sigma^2}}\Big)-\frac{1}{2\sigma^2}(x_{i}-\mu)^2\Big\}\\
&= -\frac{n}{2}\log(2\pi\sigma^2)-\frac{1}{2\sigma^2}\sum_{i=1}^{n} (x_{i}-\mu)^2\\
\end{align}
平均$\mu$で偏微分すると
\begin{align}
\frac{\partial \log L}{\partial \mu} &= \frac{1}{2\sigma^2}\sum_{i=1}^{n} \{2(x_{i}-\mu) \} \\
&= \frac{1}{\sigma^2}\sum_{i=1}^{n} (x_{i}-\mu) \\
\end{align}
これが$=0$となる$\mu$を探すと
\begin{align}
\frac{1}{\sigma^2}\sum_{i=1}^{n} (x_{i}-\mu )&= 0 \\
\sum_{i=1}^{n} x_{i}-\sum_{i=1}^{n}\mu &= 0 \\
n\mu &= \sum_{i=1}^{n}x_{i} \\
\mu &= \frac{1}{n}\sum_{i=1}^{n}x_{i} \\
\mu &= \mu_{x} \\
\end{align}
より、標本平均となる。同様に分散に関しても、
\begin{align}
\frac{\partial \log L}{\partial \sigma^2} &= -\frac{n}{2}\cdot \frac{2\pi}{2\pi\sigma^2}-\frac{1}{2}\cdot(-\frac{1}{\sigma^4})\cdot \sum_{i=1}^{n} (x_{i}-\mu)^2 \\
&= -\frac{n}{2\sigma^2}+\frac{1}{2\sigma^4}\cdot \sum_{i=1}^{n} (x_{i}-\mu)^2 \\
\end{align}
$=0$となる$\sigma^2$を探すと
\begin{align}
-\frac{n}{2\sigma^2}+\frac{1}{2\sigma^4}\cdot \sum_{i=1}^{n} (x_{i}-\mu)^2 &= 0 \\
\sigma^2 &= \frac{1}{n}\cdot \sum_{i=1}^{n} (x_{i}-\mu)^2\\
\sigma^2 &= \frac{1}{n}\cdot \sum_{i=1}^{n} (x_{i}-\mu_{x})^2\\
\sigma^2 &= \sigma_{x}^2
\end{align}
より、標本分散となる。