偏りの定義
確率変数のパラメータ推定にあたって、偏り(bias)は最も重視される指標です。
パラメータ$\theta$を推定する推定量$\hat{\theta}$の偏りは、
\text{Bias}(\hat{\theta}) = \text{E}(\hat{\theta}) - \theta
のように定義されます。
推定量の期待値がパラメータからどれだけずれているかを表します。何度も標本を取り出して推定量の値を計算したときに、偏りが正なら、平均的には過大推定します。逆に偏りが負なら、平均的には過小推定します。
不偏推定量
不偏推定量とは偏りのない推定量をいいます。
不偏推定量の期待値は、推定されるパラメータに一致します。(不偏性)
\text{E}(\hat{\theta}) = \theta
例:標本平均
次の標本平均
\overline{X} = \frac{1}{N}\sum_i X_i
は、確率変数の期待値$\mu$の不偏推定量となります。
証明
〈前提〉$X_i$の期待値を$\mu$とする。
\begin{align}
\text{E}(\overline{X}) &= \text{E}\!\left(\frac{1}{N}\sum_i X_i\right) \\
&= \frac{1}{N}\sum_i\text{E}(X_i) \\
&= \frac{1}{N}\sum_i\mu \\
&= \mu
\end{align}
となり、不偏性を満たす。(証明終わり)
パラメータ化
確率分布のパラメータ化(parametrization, parameterization)とは、パラメータをどのように取るかを指す専門用語(?)です。
たとえば、正規分布でいうと、平均$\mu$と分散$\sigma^2$の組というパラメータ化と、平均$\mu$と標準偏差$\sigma$の組というパラメータ化がよく見られます。
ふつうパラメータ化による表現の違いは、「平均50、分散100の正規分布」と「平均50、標準偏差10の正規分布」のように、簡単に「翻訳」することができます。
不偏推定量の変換と不偏性
あまり触れられない点ですが、不偏推定量を変換したとき不偏性は保存されません。
パラメータ$\theta$があり、$\hat{\theta}$をその不偏推定量とします。さらに、別のパラメータ化でパラメータ$\varphi = f(\theta)$のように表されるとして、$\hat{\theta}$を$\theta$と同様に$\hat{\varphi} = f(\hat{\theta})$と変換することを考えます。
このとき、$\hat{\varphi}$は$\varphi$の不偏推定量でしょうか?
凸関数$f(x)$で変換するとき、次のイェンセンの不等式が成り立ちます。
\text{E}(f(X)) \geq f(\text{E}(X))
この不等式から、
\text{E}(f(\hat{\theta})) \geq f(\text{E}(\hat{\theta}))
\text{E}(\hat{\varphi}) \geq \varphi
となります。
よって、先の問いの答えは、残念ながら否です。一次関数など特別な場合を除けば、$\hat{\varphi}$は$\varphi$の不偏推定量ではありません。
イェンセンの不等式の補足
イェンセンの不等式は、凹関数$g(x)$で変換するときには不等号が逆転します。
\text{E}(g(X)) \leq g(\text{E}(X))
証明
凸関数版のイェンセンの不等式
\text{E}(f(X)) \geq f(\text{E}(X))
の両辺に−1を掛けると、
-\text{E}(f(X)) \leq -f(\text{E}(X))
となり、さらに期待値の線形性から、
\text{E}(-f(X)) \leq -f(\text{E}(X))
となる。
ここで、$g(x) = -f(x)$とおくと、これは凹関数で、
\text{E}(g(X)) \leq g(\text{E}(X))
となる。(証明終わり)