記事の内容
- 数理統計学の推定論における「漸近正規性」の証明をめっちゃ丁寧にやります!!
- 「漸近正規性」は最尤推定量が有効であることを保証する重要な結果です。
- この証明には、尤度関数、テイラー展開、中心極限定理、大数の法則、スラツキーの定理など、数理統計学の基礎がたくさん登場します。
- ですので、数理統計学の入門者にとって、とてもいい練習になります。
はじめに
最尤推定量(MLE)$\hat{\theta}_n$ が持つ代表的な性質の一つに、漸近正規性があります。これは、大きなサンプルサイズ $n$ において、$\hat{\theta}_n$ が真の母数 $\theta$ の周りで正規分布に従うことを意味します。
本稿では、以下の漸近的性質を示します:
$$
\sqrt{n}(\hat{\theta}_n - \theta) \xrightarrow{d} N\left(0, \frac{1}{I_1(\theta)}\right)
$$
ここで $I_1(\theta)$ は単位標本に対するフィッシャー情報量です。
使用する仮定
以下は証明に必要な基本仮定です:
※過不足があったらすみません。
-
正則性条件:
- 尤度関数 $p(x;\theta)$ が $\theta$ に関して2階微分可能である。
- 積分と微分の交換が可能。
- スコア関数の期待値が0である:
$$
E_\theta \left[ \frac{\partial}{\partial \theta} \log p(X;\theta) \right] = 0
$$
-
情報量の有限性:
- フィッシャー情報量 $I_1(\theta)$ が有限かつ正である。
-
一意な最大値:
- 対数尤度関数 $l_n(\theta) = \sum_{i=1}^n \log p(X_i;\theta)$ が $\theta$ の近傍で一意に最大化される。
-
中心極限定理(CLT)と大数の法則(LLN)の適用可能性:
- 観測 $X_1,\dots,X_n$ は独立同分布(i.i.d.)である。
証明ステップ
ステップ1:スコア関数の定義
対数尤度関数を $l_n(\theta)$ と書きます:
$$
l_n(\theta) = \sum_{i=1}^n \log p(X_i; \theta)
$$
その導関数(スコア関数)を:
$$
l_n'(\theta) = \frac{d}{d\theta} l_n(\theta) = \sum_{i=1}^n \frac{\partial}{\partial \theta} \log p(X_i; \theta)
$$
とします。
最尤推定量 $\hat{\theta}_n$ は、尤度を最大化する点なので、$l_n'(\hat{\theta}_n) = 0$ を満たします。
ステップ2:テイラー展開
$l_n'(\hat{\theta}_n) = 0$ を $\theta$ のまわりで1次のテイラー展開を行います。
$$
l_n'(\hat{\theta}_n) = l_n'(\theta) + l_n''(\theta) (\hat{\theta}_n - \theta) + R_n
$$
ここで $R_n$ は剰余項(高次の項)ですが、$\hat{\theta}_n \to \theta$ のもとで無視できるため:
$$
0 = l_n'(\theta) + l_n''(\theta)(\hat{\theta}_n - \theta) + o_p(1)
$$
よって:
$$
\sqrt{n}(\hat{\theta}_n - \theta) = -\left( \frac{1}{n} l_n''(\theta) \right)^{-1} \cdot \frac{1}{\sqrt{n}} l_n'(\theta) + o_p(1)
$$
ステップ3:スコア関数の中心極限定理の適用
最初に定義したスコア関数の全体和($n$個の観測に対する対数尤度の微分)は次の通りです:
$$
l_n'(\theta) = \sum_{i=1}^n \frac{\partial}{\partial \theta} \log p(X_i; \theta)
$$
このとき、各項を次のように定義します:
$$
U_i(\theta) := \frac{\partial}{\partial \theta} \log p(X_i; \theta)
$$
すると、スコア関数は
$$
l_n'(\theta) = \sum_{i=1}^n U_i(\theta)
$$
と書けます。ここで、$U_1(\theta), U_2(\theta), \dots, U_n(\theta)$ は $\theta$ 固定の下で独立同分布(i.i.d.)とみなせます。
Step 3.1:各 U_i の平均と分散
仮定より:
- $E[U_i(\theta)] = 0$(スコア関数の期待値は0:正則性条件)
- $\operatorname{Var}(U_i(\theta)) = E[U_i(\theta)^2] = I_1(\theta)$(単位標本のフィッシャー情報量)
Step 3.2:中心極限定理(CLT)の適用
$U_1(\theta), \dots, U_n(\theta)$ が i.i.d. で有限な分散 $I_1(\theta)$ を持つため、中心極限定理より:
$$
\frac{1}{\sqrt{n}} \sum_{i=1}^n U_i(\theta) \xrightarrow{d} N(0, I_1(\theta))
$$
ここでは、中心極限定理の次の定型を使った。
\sqrt{n} \left( \bar{X}_n - \mu \right) \xrightarrow{d} N(0, \sigma^2)
すなわち、
$$
\frac{1}{\sqrt{n}} l_n'(\theta) = \frac{1}{\sqrt{n}} \sum_{i=1}^n \frac{\partial}{\partial \theta} \log p(X_i; \theta) \xrightarrow{d} N(0, I_1(\theta))
$$
という漸近分布が得られます。
Step 3.3:補足(CLTの適用条件)
このとき、CLTの適用には以下の仮定が満たされている必要があります:
- 各 $U_i(\theta)$ は独立同分布(i.i.d.)
- $E[U_i(\theta)] = 0$
- $\operatorname{Var}(U_i(\theta)) < \infty$
これは先述した「正則性条件」により保証されており、従って CLT を正当に適用できます。
結論:
以上により、
$$
\frac{1}{\sqrt{n}} l_n'(\theta) \xrightarrow{d} N(0, I_1(\theta))
$$
が正当化され、以降のスラツキーの定理への布石となります。
ステップ4:大数の法則による収束
2階微分の平均を考える。平均の定義より、
$$
\frac{1}{n} l_n''(\theta) = \frac{1}{n} \sum_{i=1}^n \frac{\partial^2}{\partial \theta^2} \log p(X_i;\theta)
$$
大数の法則により、
$$
\frac{1}{n} l_n''(\theta) \xrightarrow{p} E_\theta\left[ \frac{\partial^2}{\partial \theta^2} \log p(X; \theta) \right] = -I_1(\theta)
$$
(これは正則性条件のもとで成立)
フィッシャー情報量の定義を使った。
$$
I_1(\theta) = - E_\theta\left[ \frac{\partial^2}{\partial \theta^2} \log p(X; \theta) \right]
$$
フィッシャー情報量の定義の確認
I_1(\theta) = \mathrm{Var}_\theta\left( \frac{\partial}{\partial \theta} \log p(X;\theta) \right)
= -E_\theta\left[ \frac{\partial^2}{\partial \theta^2} \log p(X;\theta) \right]
以下では、「対数尤度の2階微分」から出発して、この等式を一歩ずつ、根拠を明示しながら証明する。
前提(正則性条件)
以下の正則性条件を仮定する:
- $ p(x;\theta) $ は2回微分可能$ \theta $ に関して)
- 微分と積分の順序交換が可能(可積分性)
- 台(定義域)が $ \theta $ に依存しない、またはうまく制御可能
証明
対数尤度の2階微分の期待値を出発点とする。
$$
E_\theta\left[ \frac{\partial^2}{\partial \theta^2} \log p(X;\theta) \right]
$$
対数尤度の2階微分は、以下のように変形できる。
$$
\frac{\partial^2}{\partial \theta^2} \log p(x;\theta)
= \frac{p''(x;\theta)}{p(x;\theta)} - \left( \frac{p'(x;\theta)}{p(x;\theta)} \right)^2
$$
両辺の期待値を取る:
E_\theta\left[ \frac{\partial^2}{\partial \theta^2} \log p(X;\theta) \right]
= E_\theta\left[ \frac{p''(X;\theta)}{p(X;\theta)} \right]
- E_\theta\left[ \left( \frac{p'(X;\theta)}{p(X;\theta)} \right)^2 \right]
ここで期待値の定義より:
E_\theta\left[ \frac{p''(X;\theta)}{p(X;\theta)} \right]
= \int \frac{p''(x;\theta)}{p(x;\theta)} p(x;\theta) dx
= \int p''(x;\theta) dx
\int p(x;\theta) dx = 1
\quad\Rightarrow\quad
\frac{d^2}{d\theta^2} \int p(x;\theta) dx = 0
微分と積分の順序交換により:
\int \frac{\partial^2}{\partial \theta^2} p(x;\theta) dx = 0
\quad\Rightarrow\quad
E_\theta\left[ \frac{p''(X;\theta)}{p(X;\theta)} \right] = 0
上記より:
E_\theta\left[ \frac{\partial^2}{\partial \theta^2} \log p(X;\theta) \right]
= - E_\theta\left[ \left( \frac{\partial}{\partial \theta} \log p(X;\theta) \right)^2 \right]
したがって、
- E_\theta\left[ \frac{\partial^2}{\partial \theta^2} \log p(X;\theta) \right]
= E_\theta\left[ \left( \frac{\partial}{\partial \theta} \log p(X;\theta) \right)^2 \right]
= \mathrm{Var}_\theta\left( \frac{\partial}{\partial \theta} \log p(X;\theta) \right)
I_1(\theta) = \mathrm{Var}_\theta\left( \frac{\partial}{\partial \theta} \log p(X;\theta) \right)
= - E_\theta\left[ \frac{\partial^2}{\partial \theta^2} \log p(X;\theta) \right]
ステップ5:スラツキーの定理による結論
前ステップで:
- $\frac{1}{\sqrt{n}} l_n'(\theta) \xrightarrow{d} N(0, I_1(\theta))$
- $\frac{1}{n} l_n''(\theta) \xrightarrow{p} -I_1(\theta)$
が成り立つので、スラツキーの定理より:
$$
\sqrt{n}(\hat{\theta}_n - \theta) \xrightarrow{d} \frac{1}{I_1(\theta)} \cdot N(0, I_1(\theta)) = N(0, 1/I_1(\theta))
$$
ここで、ある確率変数の「定数」倍の分散は、「定数の二乗」倍の分散になるという基本を利用している。
結論
以上により、最尤推定量 $\hat{\theta}_n$ は以下の漸近的分布に従うことが示されました:
$$
\sqrt{n}(\hat{\theta}_n - \theta) \xrightarrow{d} N\left(0, \frac{1}{I_1(\theta)}\right)
$$
これは、MLE が大標本において正規分布に近づくという強力な性質であり、信頼区間や検定の理論的根拠となります。