1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

クラメール・ラオ不等式の証明をめっちゃ丁寧にやる【数理統計学の基礎】

1
Last updated at Posted at 2025-06-23

クラメール・ラオの不等式をめっちゃ丁寧に証明したい

  • 統計学では、推定量の良し悪しを評価することが重要です。評価の理論において、とても重要な結果がクラメール・ラオの不等式です。
  • この記事では、この不等式をできるだけ丁寧に証明します。
  • 数理統計学の基礎を勉強したい人にぴったりの内容です。
  • 調べてみると、証明にはいろいろな方法があるようです。ですので、この記事での方法は参考の一つにしてみてください。

言葉、記号の準備

  • $X$: 観測された確率変数(またはベクトル)
  • $\theta$: 母数(スカラーとする)
  • $p(x;\theta)$: $ X $ の確率密度関数
  • $ \hat{\theta}(X) $: $ \theta $ の推定量
  • $ I(\theta) $: フィッシャー情報量(Fisher information)
  • $ U(X) = \frac{\partial}{\partial \theta} \log p(X; \theta) $: スコア関数
  • $ \mathrm{Var}_\theta[\hat{\theta}(X)] $: 推定量の分散

クラメール・ラオの不等式

クラメール・ラオの不等式(Cramér-Rao inequality)は次を主張します。

不偏推定量 $ \hat{\theta}(X) $ に対して、分散は次のように下から抑えられる:

\mathrm{Var}_\theta[\hat{\theta}(X)] \geq \frac{1}{I(\theta)}

この不等式は、推定量の性能限界を与える重要な理論です。以下にその証明を5つのステップに分けて示します。


証明

ステップ1:不偏性の微分

不偏推定量の定義より、

\mathbb{E}_\theta[\hat{\theta}(X)] = \theta

この両辺を $ \theta $ で微分すると:

\frac{d}{d\theta} \mathbb{E}_\theta[\hat{\theta}(X)] = \frac{d\theta}{d\theta} = 1

微分を中に入れるには定理(微分と積分の交換)が必要です。通常の正則性条件(微分と積分の交換可能性)が成り立つと仮定し、次のようにします。
※測度論には踏み込まない数理統計学の議論では、このような仮定を採用することが多いようです。

\frac{d}{d\theta} \int \hat{\theta}(x) p(x;\theta) dx = \int \hat{\theta}(x) \frac{\partial}{\partial \theta} p(x;\theta) dx

さらに、$p(x;\theta)$の対数の微分を考えて、

\frac{\partial}{\partial \theta} \log p(x;\theta) = \frac{1}{p(x;\theta)} \cdot \frac{\partial}{\partial \theta} p(x;\theta)

だから、

\frac{\partial}{\partial \theta} p(x;\theta) = p(x;\theta) \cdot \frac{\partial}{\partial \theta} \log p(x;\theta)

これを用いると:

\int \hat{\theta}(x) \frac{\partial}{\partial \theta} p(x;\theta) dx = \int \hat{\theta}(x) \frac{\partial \log p(x;\theta)}{\partial \theta} p(x;\theta) dx

したがって、

\mathbb{E}_\theta\left[ \hat{\theta}(X) \cdot \frac{\partial \log p(X;\theta)}{\partial \theta} \right] = 1

ステップ2:スコア関数との積にする

スコア関数 $ U(X) = \frac{\partial \log p(X;\theta)}{\partial \theta}$ を導入すると、前節の式は次のように書けます:

\mathbb{E}_\theta[ \hat{\theta}(X) \cdot U(X) ] = 1

ステップ3:推定量とスコア関数の期待値を中心化

中心化の準備

不偏推定量であることから、

\mathbb{E}_\theta[\hat{\theta}(X)] = \theta

またスコア関数の性質より

\mathbb{E}_\theta[U(X)] = 0

中心化の計算

そして、以下の恒等式を使用します。

\hat{\theta}(X) = (\hat{\theta}(X) - \theta) + \theta
U(X) = (U(X) - 0) + 0

ステップ2の期待値に代入すると、

\mathbb{E}_\theta[ \hat{\theta}(X) \cdot U(X) ]
= \mathbb{E}_\theta\left[ \left( (\hat{\theta}(X) - \theta) + \theta \right) \cdot U(X) \right]

ここで分配法則を適用します:

= \mathbb{E}_\theta\left[ (\hat{\theta}(X) - \theta) \cdot U(X) + \theta \cdot U(X) \right]

さらに期待値の線形性を用いて:

= \mathbb{E}_\theta\left[ (\hat{\theta}(X) - \theta) \cdot U(X) \right] + \theta \cdot \mathbb{E}_\theta[U(X)]

ここで、$\mathbb{E}_\theta[U(X)] = 0$ より第2項は0になる:

= \mathbb{E}_\theta\left[ (\hat{\theta}(X) - \theta) \cdot U(X) \right] + \theta \cdot 0
= \mathbb{E}_\theta\left[ (\hat{\theta}(X) - \theta) \cdot U(X) \right]

ステップ2より、この期待値は1だから、

\mathbb{E}_\theta[ (\hat{\theta}(X) - \theta) \cdot (U(X) - 0) ] = 1

すなわち、

\mathbb{E}_\theta[ (\hat{\theta}(X) - \theta) \cdot U(X) ] = 1

中心化の統計学的な意味

中心化とは、確率変数から平均を引いて平均$0$の偏差にすることです。これは共分散や相関係数の定義に現れ、変動や関係性を分析するために重要な処理です。

クラメール・ラオの不等式のような推定理論では、推定量の「期待値=θ」は確定しているので、興味があるのは:

  • 「θからどれだけズレるか」
  • 「そのズレがスコア関数とどう連動しているか」

つまり、推定量とスコア関数の中心化を取って、

\mathbb{E}_\theta[ (\hat{\theta}(X) - \theta) \cdot (U(X) - 0) ]

のように、「ズレどうしの関係=共分散」を見ることが重要です。


ステップ4:コーシー・シュワルツの不等式を適用

次の形式のコーシー・シュワルツの不等式を適用します:

\left( \mathbb{E}[AB] \right)^2 \leq \mathbb{E}[A^2] \cdot \mathbb{E}[B^2]

ここで $ A = \hat{\theta}(X) - \theta$、$ B = U(X) $と置くと:

\left( \mathbb{E}[ (\hat{\theta}(X) - \theta) \cdot U(X) ] \right)^2 \leq \mathbb{E}[ (\hat{\theta}(X) - \theta)^2 ] \cdot \mathbb{E}[ U(X)^2 ]

左辺はステップ3で1と分かっているので:

1^2 \leq \mathrm{Var}_\theta[\hat{\theta}(X)] \cdot I(\theta)

フィッシャー情報量のスコア関数による定義を使用した。

I(\theta) = \mathbb{E}_\theta[U(X)^2]

ステップ5:分散を下界で抑える

上式を分散について解くと:

\mathrm{Var}_\theta[\hat{\theta}(X)] \geq \frac{1}{I(\theta)}

これがクラメール・ラオの不等式の主張する内容です。


クラメール・ラオの不等式の意味や解釈

  • 限界性能の指標: 不偏推定量の分散の下限を与え、「これ以上の精度は出ない」という理論的限界を示す。
  • 効率的推定量: 実際の推定量がこの下限に一致するとき、「効率的」であり、統計的に最も優れているとされる。
  • 設計の指針: 実際の推定方法(最尤推定など)がこの不等式にどれだけ近づけるかが、手法の良し悪しを評価する基準になる。

関連記事

https://qiita.com/meta77/items/3a8e16ce0c7428f520a5
https://qiita.com/meta77/items/4094271a765272604712
https://qiita.com/meta77/items/8af5d3d2adb8b32d1453

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?