で測度論に基づく確率論を説明しました。これに続いて最尤推定も測度論に基づいて構成されます。
\newcommand{\R}{\mathbb{R}}
\newcommand{\borel}[1]{\mathcal{B}(#1)}
\newcommand{\diff}[3]{\frac{d^{#1}#2}{d^{#1} #3}}
\newcommand{\pdiff}[3]{\frac{\partial^{#1}#2}{\partial^{#1} #3}}
\newcommand{\ppdiff}[3]{\frac{\partial^2 #1}{\partial #2 \partial #3}}
\newcommand{\lip}[1]{\underset{#1}{\mathrm{l.i.p.}}}
尤度比
可測空間$(\Omega,\mathcal{F})$上に2つの確率測度$p_1,p_2$が定義されています。部分σ加法族$\mathcal{G} \subset \mathcal{F}$をとったとき、
$\mathcal{G}$について$p_2 \ll p_1$であり、ある確率変数$L_\mathcal{G}$を用いて
\forall E \in \mathcal{G}: p_2(E) = \int_E L_\mathcal{G}(\omega) dp_1(\omega)
となるとします。このときの確率変数$L_\mathcal{G}:\Omega \rightarrow \R$、つまり、$p_1,p_2$の$\mathcal{G}$への制限に対するラドン・ニコディム微分を尤度比と言います。ラドン・ニコディム微分の表し方に倣って
L_\mathcal{G} = \left. \diff{}{p_2}{p_1}\right|_\mathcal{G}
と表したりします。
特に$\Omega=\R$のとき、$\mathcal{G}$上で$p_1,p_2$とルベーグ測度$\mu$の間の絶対連続性
\begin{align}
p_1 &\ll \mu \\
p_2 &\ll \mu \\
\mu &\ll p_1
\end{align}
が成り立つならば、$p_1,p_2$の$\mathcal{G}$上での確率密度関数$f^\mathcal{G}_1,f^\mathcal{G}_2$を用いて
\begin{align}
L_\mathcal{G} &= \left. \diff{}{p_2}{p_1}\right|_\mathcal{G} \\
&= \left. \diff{}{p_2}{\mu} \diff{}{\mu}{p_1}\right|_\mathcal{G} \\
&= \left. \diff{}{p_2}{\mu} \left( \diff{}{p_1}{\mu} \right)^{-1} \right|_\mathcal{G} \\
&= \frac{f^\mathcal{G}_2}{f^\mathcal{G}_1} \\
\log L_\mathcal{G} &= \log f^\mathcal{G}_2 - \log f^\mathcal{G}_1
\end{align}
と書き表すことができます。
$\mathcal{G} = \mathcal{F}$のときは普通のラドン・ニコディム微分なので、尤度比の記号は$\mathcal{G}$を省略して$L$と書くことにします。
確率変数の尤度比
$\Omega$上の値をとる確率変数$X$の尤度は部分σ加法族として
\mathcal{G} = \sigma[X]
をとったものです。これは像測度を用いて
\begin{align}
\forall E \in \sigma[X]: p_2 &= \int_E L(X(\omega)) dp_1(\omega) \\
&= \int_{X(E)} L(x) d(X_*p_1)(x)
\end{align}
と変形できます。ただし$\mu$は$\R$上のルベーグ測度です。よってこの場合の尤度比は$L:\R \rightarrow \R$の関数として記述できます。
最尤推定
パラメーターの集合$\Theta \subset \R^m$とパラメーター$\theta \in \Theta$に依存する確率空間$(\Omega,\mathcal{F},p_\theta)$をとります。適切なパラメーター(真値)が$\theta_0 \in \Theta$であるとして、
\forall \theta \in \Theta: p_\theta \ll p_{\theta_0}
を仮定します。すると、ラドン・ニコディム微分(確率密度関数)
f(\omega;\theta) = \diff{}{p_\theta}{p_{\theta_0}}
が存在します。また、この確率空間上の独立同一分布に従う$\Omega$上の値をとる確率変数のベクトル$X(\omega) = (X_1(\omega),\cdots,X_n(\omega))$を考えると、積測度を考えればよくて、対数尤度$l:\Omega \rightarrow \R$は
l_X(\omega;\theta) = \sum_{i=1}^n \log f(X_i(\omega);\theta)
となります。
推定関数
対数尤度をパラメータで微分してつくった確率変数
\psi^{(n)}_i(\omega;\theta) = \frac{1}{n} \pdiff{}{l_X(\omega;\theta)}{\theta_i}
= \frac{1}{n} \sum_{i=1}^n \pdiff{}{\log f(X_i(\omega);\theta)}{\theta_i}
を推定関数と言います。すると、大数の法則より
\lip{n \rightarrow \infty}\sup_{\theta \in \Theta} \left| \psi^{(n)}_i(\omega;\theta) - \int_\Omega \pdiff{}{\log f(\omega';\theta)}{\theta_i} dp_{\theta_0}(\omega') \right| = 0
が成り立ちます。
最尤推定量
\psi^{(n)}(\omega;\theta) = 0
の解
\theta = \hat{\theta}_n(\omega)
を最尤推定量と言います。
フィッシャー情報量
I_{ij}(\theta) = \int_\Omega \pdiff{}{\log f(\omega;\theta)}{\theta_i} \pdiff{}{\log f(\omega;\theta)}{\theta_j} dp_{\theta_0}(\omega)
をフィッシャー情報量行列と言います。
一意性定理
$\Theta$が有界であるとき、
\begin{align}
\exists K \in \mathcal{F}|\borel{\R}:& K(\omega)>0, \ \int_\Omega K(\omega) dp_{\theta_0}(\omega) < \infty \\
\exists \gamma > 0:& \forall \theta_1, \theta_2 \in \Theta: \forall \omega \in \Omega:
\left| \pdiff{}{\log f(\omega,\theta_1)}{\theta_i} - \pdiff{}{\log f(\omega,\theta_2)}{\theta_i} \right| \leq K(\omega)|\theta_1 - \theta_2|^\gamma
\end{align}
そして、
\forall \epsilon > 0: \inf_{\substack{\theta \in \Theta \\ |\theta - \theta_0|> \epsilon }} \left| \int_\Omega \pdiff{}{\log f(\omega,\theta)}{\theta_i} dp_{\theta_0}(\omega) \right| > 0
が成り立つと仮定します。このもとで
\lip{n \rightarrow \infty}\psi^{(n)}(\omega, \hat{\theta}_n(\omega)) = 0
\Rightarrow \lip{n \rightarrow \infty} \hat{\theta}_n(\omega) = \theta_0
となります。
漸近正規性定理
$\theta_0$の近傍を$N_{\theta_0} \subset \Theta$と表します。
\begin{align}
\exists K \in \mathcal{F}|\borel{\R}:& K(\omega)>0, \ \int_\Omega K(\omega) dp_{\theta_0}(\omega) < \infty \\
\exists \gamma > 0:& \forall \theta_1, \theta_2 \in N_{\theta_0}^\gamma: \forall \omega \in \Omega:
\left| \ppdiff{\log f(\omega,\theta_1)}{\theta_i}{\theta_j} - \ppdiff{\log f(\omega,\theta_2)}{\theta_i}{\theta_j} \right| \leq K(\omega)|\theta_1 - \theta_2|^\gamma
\end{align}
が成り立つと仮定します。このもとで
\begin{align}
\lip{n \rightarrow \infty} \frac{1}{\sqrt{n}} \psi^{(n)}(\omega, \hat{\theta}_n(\omega)) = 0, \
\lip{n \rightarrow \infty} \hat{\theta}_n(\omega) = \theta_0 \\
\Rightarrow \left( \sqrt{n}(\hat{\theta}_n(\omega) - \theta_0) - \sqrt{n} I^{-1}(\theta_0)\psi^{(n)}(\omega,\theta_0) \right) \overset{n \rightarrow \infty}{\rightsquigarrow} 0
\end{align}
また、
\begin{align}
X_n &= \sqrt{n}(\hat{\theta}_n(\omega) - \theta_0) \\
Y_n(\omega) &= \sqrt{n} I^{-1}(\theta_0)\psi^{(n)}(\omega,\theta_0)
\end{align}
を用いて$\Theta$の測度を像測度で定義すれば、
\begin{align}
p_{X_n} &\xrightarrow{n \rightarrow \infty} p_{Y_n} \\
p_{X_n},p_{Y_n} &\xrightarrow{n \rightarrow \infty} N(0,I^{-1}(\theta_0))
\end{align}
です。ここで、$N(\mu,\Sigma)$は平均ベクトル$\mu$、分散行列$\Sigma$をもつ多次元正規分布です。
コメント
以上の性質から最尤推定量は十分大きな$n$に対して$\theta_0$を推定する量として妥当なものになっています。実際の利用法では同じ測定を$n$回行い、$i$回目の測定を$X_i$として最尤推定を行います。
参考
- 西山陽一「マルチンゲール理論による統計解析」近代科学社
- https://www.jstage.jst.go.jp/article/sugaku1947/29/2/29_2_110/_pdf/-char/ja