クラメール・ラオの不等式をめっちゃ丁寧に証明したい
- 統計学では、推定量の良し悪しを評価することが重要です。評価の理論において、とても重要な結果がクラメール・ラオの不等式です。
- この記事では、この不等式をできるだけ丁寧に証明します。
- 数理統計学の基礎を勉強したい人にぴったりの内容です。
- 調べてみると、証明にはいろいろな方法があるようです。ですので、この記事での方法は参考の一つにしてみてください。
言葉、記号の準備
- $X$: 観測された確率変数(またはベクトル)
- $\theta$: 母数(スカラーとする)
- $p(x;\theta)$: $ X $ の確率密度関数
- $ \hat{\theta}(X) $: $ \theta $ の推定量
- $ I(\theta) $: フィッシャー情報量(Fisher information)
- $ U(X) = \frac{\partial}{\partial \theta} \log p(X; \theta) $: スコア関数
- $ \mathrm{Var}_\theta[\hat{\theta}(X)] $: 推定量の分散
クラメール・ラオの不等式
クラメール・ラオの不等式(Cramér-Rao inequality)は次を主張します。
不偏推定量 $ \hat{\theta}(X) $ に対して、分散は次のように下から抑えられる:
\mathrm{Var}_\theta[\hat{\theta}(X)] \geq \frac{1}{I(\theta)}
この不等式は、推定量の性能限界を与える重要な理論です。以下にその証明を5つのステップに分けて示します。
証明
ステップ1:不偏性の微分
不偏推定量の定義より、
\mathbb{E}_\theta[\hat{\theta}(X)] = \theta
この両辺を $ \theta $ で微分すると:
\frac{d}{d\theta} \mathbb{E}_\theta[\hat{\theta}(X)] = \frac{d\theta}{d\theta} = 1
微分を中に入れるには定理(微分と積分の交換)が必要です。通常の正則性条件(微分と積分の交換可能性)が成り立つと仮定し、次のようにします。
※測度論には踏み込まない数理統計学の議論では、このような仮定を採用することが多いようです。
\frac{d}{d\theta} \int \hat{\theta}(x) p(x;\theta) dx = \int \hat{\theta}(x) \frac{\partial}{\partial \theta} p(x;\theta) dx
さらに、$p(x;\theta)$の対数の微分を考えて、
\frac{\partial}{\partial \theta} \log p(x;\theta) = \frac{1}{p(x;\theta)} \cdot \frac{\partial}{\partial \theta} p(x;\theta)
だから、
\frac{\partial}{\partial \theta} p(x;\theta) = p(x;\theta) \cdot \frac{\partial}{\partial \theta} \log p(x;\theta)
これを用いると:
\int \hat{\theta}(x) \frac{\partial}{\partial \theta} p(x;\theta) dx = \int \hat{\theta}(x) \frac{\partial \log p(x;\theta)}{\partial \theta} p(x;\theta) dx
したがって、
\mathbb{E}_\theta\left[ \hat{\theta}(X) \cdot \frac{\partial \log p(X;\theta)}{\partial \theta} \right] = 1
ステップ2:スコア関数との積にする
スコア関数 $ U(X) = \frac{\partial \log p(X;\theta)}{\partial \theta}$ を導入すると、前節の式は次のように書けます:
\mathbb{E}_\theta[ \hat{\theta}(X) \cdot U(X) ] = 1
ステップ3:推定量とスコア関数の期待値を中心化
中心化の準備
不偏推定量であることから、
\mathbb{E}_\theta[\hat{\theta}(X)] = \theta
またスコア関数の性質より
\mathbb{E}_\theta[U(X)] = 0
中心化の計算
そして、以下の恒等式を使用します。
\hat{\theta}(X) = (\hat{\theta}(X) - \theta) + \theta
U(X) = (U(X) - 0) + 0
ステップ2の期待値に代入すると、
\mathbb{E}_\theta[ \hat{\theta}(X) \cdot U(X) ]
= \mathbb{E}_\theta\left[ \left( (\hat{\theta}(X) - \theta) + \theta \right) \cdot U(X) \right]
ここで分配法則を適用します:
= \mathbb{E}_\theta\left[ (\hat{\theta}(X) - \theta) \cdot U(X) + \theta \cdot U(X) \right]
さらに期待値の線形性を用いて:
= \mathbb{E}_\theta\left[ (\hat{\theta}(X) - \theta) \cdot U(X) \right] + \theta \cdot \mathbb{E}_\theta[U(X)]
ここで、$\mathbb{E}_\theta[U(X)] = 0$ より第2項は0になる:
= \mathbb{E}_\theta\left[ (\hat{\theta}(X) - \theta) \cdot U(X) \right] + \theta \cdot 0
= \mathbb{E}_\theta\left[ (\hat{\theta}(X) - \theta) \cdot U(X) \right]
ステップ2より、この期待値は1だから、
\mathbb{E}_\theta[ (\hat{\theta}(X) - \theta) \cdot (U(X) - 0) ] = 1
すなわち、
\mathbb{E}_\theta[ (\hat{\theta}(X) - \theta) \cdot U(X) ] = 1
中心化の統計学的な意味
中心化とは、確率変数から平均を引いて平均$0$の偏差にすることです。これは共分散や相関係数の定義に現れ、変動や関係性を分析するために重要な処理です。
クラメール・ラオの不等式のような推定理論では、推定量の「期待値=θ」は確定しているので、興味があるのは:
- 「θからどれだけズレるか」
- 「そのズレがスコア関数とどう連動しているか」
つまり、推定量とスコア関数の中心化を取って、
\mathbb{E}_\theta[ (\hat{\theta}(X) - \theta) \cdot (U(X) - 0) ]
のように、「ズレどうしの関係=共分散」を見ることが重要です。
ステップ4:コーシー・シュワルツの不等式を適用
次の形式のコーシー・シュワルツの不等式を適用します:
\left( \mathbb{E}[AB] \right)^2 \leq \mathbb{E}[A^2] \cdot \mathbb{E}[B^2]
ここで $ A = \hat{\theta}(X) - \theta$、$ B = U(X) $と置くと:
\left( \mathbb{E}[ (\hat{\theta}(X) - \theta) \cdot U(X) ] \right)^2 \leq \mathbb{E}[ (\hat{\theta}(X) - \theta)^2 ] \cdot \mathbb{E}[ U(X)^2 ]
左辺はステップ3で1と分かっているので:
1^2 \leq \mathrm{Var}_\theta[\hat{\theta}(X)] \cdot I(\theta)
フィッシャー情報量のスコア関数による定義を使用した。
I(\theta) = \mathbb{E}_\theta[U(X)^2]
ステップ5:分散を下界で抑える
上式を分散について解くと:
\mathrm{Var}_\theta[\hat{\theta}(X)] \geq \frac{1}{I(\theta)}
これがクラメール・ラオの不等式の主張する内容です。
クラメール・ラオの不等式の意味や解釈
- 限界性能の指標: 不偏推定量の分散の下限を与え、「これ以上の精度は出ない」という理論的限界を示す。
- 効率的推定量: 実際の推定量がこの下限に一致するとき、「効率的」であり、統計的に最も優れているとされる。
- 設計の指針: 実際の推定方法(最尤推定など)がこの不等式にどれだけ近づけるかが、手法の良し悪しを評価する基準になる。
関連記事
https://qiita.com/meta77/items/3a8e16ce0c7428f520a5
https://qiita.com/meta77/items/4094271a765272604712
https://qiita.com/meta77/items/8af5d3d2adb8b32d1453