平均二乗誤差の定義
 確率変数のパラメータの推定量について、その良し悪しをはかる指標の一つに平均二乗誤差(mean squared error)があります。
 推定されるパラメータを$\theta$、推定量を$\hat{\theta}$と表すと、
\text{MSE}(\hat{\theta}) = \text{E}((\hat{\theta} - \theta)^2)
のように定義されます。
 推定量の誤差、つまりパラメータからのずれを二乗して期待値をとっています。誤差は正だったり負だったりするので、正のずれも負のずれも大きいほど悪いとして評価しようというわけですね。
平均二乗誤差と分散と偏り
推定量の平均二乗誤差は、分散による成分と偏りによる成分に分解できます。
\text{MSE}(\hat{\theta}) = \text{Var}(\hat{\theta}) + (\text{Bias}(\hat{\theta}))^2
証明
分散と偏りの定義はそれぞれ次のとおり。
\text{Var}(X) = \text{E}((X - \text{E}({X}))^2)```
\text{Bias}(\hat{\theta}) = \text{E}(\hat{\theta}) - \theta
前節の平均二乗誤差の定義から式変形により示す。
\begin{align}
\text{MSE}(\hat{\theta}) &= \text{E}((\hat{\theta} - \theta)^2) \\
&= \text{E}((\hat{\theta} - \text{E}(\hat{\theta}) + \text{E}(\hat{\theta}) - \theta)^2) \\
&= \text{E}((\hat{\theta} - \text{E}(\hat{\theta}))^2 + 2\,(\hat{\theta} - \text{E}(\hat{\theta}))\,(\text{E}(\hat{\theta}) - \theta) + (\text{E}(\hat{\theta}) - \theta)^2) \\
&= \text{E}((\hat{\theta} - \text{E}(\hat{\theta}))^2) + 2\,\text{E}((\hat{\theta} - \text{E}(\hat{\theta}))\,(\text{E}(\hat{\theta}) - \theta)) + (\text{E}(\hat{\theta}) - \theta)^2 \\
&= \text{Var}(\hat{\theta}) + 2\,\text{E}((\hat{\theta} - \text{E}(\hat{\theta}))\,(\text{E}(\hat{\theta}) - \theta)) + (\text{Bias}(\hat{\theta}))^2
\end{align}
ここで、
\begin{align}
\text{E}((\hat{\theta} - \text{E}(\hat{\theta}))\,(\text{E}(\hat{\theta}) - \theta)) &= (\text{E}(\hat{\theta}) - \theta)\,\text{E}(\hat{\theta} - \text{E}(\hat{\theta})) \\
&= (\text{E}(\hat{\theta}) - \theta)\,(\text{E}(\hat{\theta}) - \text{E}(\hat{\theta})) \\
&= 0
\end{align}
となるので、結局、
\text{MSE}(\hat{\theta}) = \text{Var}(\hat{\theta}) + (\text{Bias}(\hat{\theta}))^2
となる。(証明終わり)
 この式の意味を考えてみましょう。
 第2項の偏りの二乗はつねに非負なので、平均二乗誤差が分散より小さくなることはありません。不偏推定量では、平均二乗誤差と分散は一致します。
 また、不偏推定量だから平均二乗誤差が小さいとは限りません。分散が小さい偏った推定量と分散が大きい不偏推定量があったとき、前者の平均二乗誤差がより小さいかもしれません。