推定量の偏りと不偏推定量

統計学

Last updated at 2025-11-07Posted at 2025-10-29

偏りの定義

　確率変数のパラメータ推定にあたって、偏り（bias）は最も重視される指標です。
　パラメータ$\theta$を推定する推定量$\hat{\theta}$の偏りは、

\text{Bias}(\hat{\theta}) = \text{E}(\hat{\theta}) - \theta

のように定義されます。
　推定量の期待値がパラメータからどれだけずれているかを表します。何度も標本を取り出して推定量の値を計算したときに、偏りが正なら、平均的には過大推定します。逆に偏りが負なら、平均的には過小推定します。

不偏推定量

　不偏推定量とは偏りのない推定量をいいます。
　不偏推定量の期待値は、推定されるパラメータに一致します。（不偏性）

\text{E}(\hat{\theta}) = \theta

例：標本平均

　次の標本平均

\overline{X} = \frac{1}{N}\sum_i X_i

は、確率変数の期待値$\mu$の不偏推定量となります。

証明

〈前提〉$X_i$の期待値を$\mu$とする。

\begin{align}
\text{E}(\overline{X}) &= \text{E}\!\left(\frac{1}{N}\sum_i X_i\right) \\
&= \frac{1}{N}\sum_i\text{E}(X_i) \\
&= \frac{1}{N}\sum_i\mu \\
&= \mu
\end{align}

となり、不偏性を満たす。（証明終わり）

パラメータ化

　確率分布のパラメータ化（parametrization, parameterization）とは、パラメータをどのように取るかを指す専門用語（？）です。
　たとえば、正規分布でいうと、平均$\mu$と分散$\sigma^2$の組というパラメータ化と、平均$\mu$と標準偏差$\sigma$の組というパラメータ化がよく見られます。
　ふつうパラメータ化による表現の違いは、「平均50、分散100の正規分布」と「平均50、標準偏差10の正規分布」のように、簡単に「翻訳」することができます。

不偏推定量の変換と不偏性

　あまり触れられない点ですが、不偏推定量を変換したとき不偏性は保存されません。

　パラメータ$\theta$があり、$\hat{\theta}$をその不偏推定量とします。さらに、別のパラメータ化でパラメータ$\varphi = f(\theta)$のように表されるとして、$\hat{\theta}$を$\theta$と同様に$\hat{\varphi} = f(\hat{\theta})$と変換することを考えます。
　このとき、$\hat{\varphi}$は$\varphi$の不偏推定量でしょうか？

　凸関数$f(x)$で変換するとき、次のイェンセンの不等式が成り立ちます。

\text{E}(f(X)) \geq f(\text{E}(X))

イェンセンの不等式 - Wikipedia

　この不等式から、

\text{E}(f(\hat{\theta})) \geq f(\text{E}(\hat{\theta}))

\text{E}(\hat{\varphi}) \geq \varphi

となります。
　よって、先の問いの答えは、残念ながら否です。一次関数など特別な場合を除けば、$\hat{\varphi}$は$\varphi$の不偏推定量ではありません。

イェンセンの不等式の補足

　イェンセンの不等式は、凹関数$g(x)$で変換するときには不等号が逆転します。

\text{E}(g(X)) \leq g(\text{E}(X))

証明

　凸関数版のイェンセンの不等式

\text{E}(f(X)) \geq f(\text{E}(X))

の両辺に−1を掛けると、

-\text{E}(f(X)) \leq -f(\text{E}(X))

となり、さらに期待値の線形性から、

\text{E}(-f(X)) \leq -f(\text{E}(X))

となる。
　ここで、$g(x) = -f(x)$とおくと、これは凹関数で、

\text{E}(g(X)) \leq g(\text{E}(X))

となる。（証明終わり）

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up