More than 1 year has passed since last update.

測度論に基づく最尤推定

Last updated at 2024-06-13Posted at 2022-11-30

で測度論に基づく確率論を説明しました。これに続いて最尤推定も測度論に基づいて構成されます。

\newcommand{\R}{\mathbb{R}}
\newcommand{\borel}[1]{\mathcal{B}(#1)}
\newcommand{\diff}[3]{\frac{d^{#1}#2}{d^{#1} #3}}
\newcommand{\pdiff}[3]{\frac{\partial^{#1}#2}{\partial^{#1} #3}}
\newcommand{\ppdiff}[3]{\frac{\partial^2 #1}{\partial #2 \partial #3}}
\newcommand{\lip}[1]{\underset{#1}{\mathrm{l.i.p.}}}

尤度比

可測空間$(\Omega,\mathcal{F})$上に2つの確率測度$p_1,p_2$が定義されています。部分σ加法族$\mathcal{G} \subset \mathcal{F}$をとったとき、
$\mathcal{G}$について$p_2 \ll p_1$であり、ある確率変数$L_\mathcal{G}$を用いて

\forall E \in \mathcal{G}: p_2(E) = \int_E L_\mathcal{G}(\omega) dp_1(\omega)

となるとします。このときの確率変数$L_\mathcal{G}:\Omega \rightarrow \R$、つまり、$p_1,p_2$の$\mathcal{G}$への制限に対するラドン・ニコディム微分を尤度比と言います。ラドン・ニコディム微分の表し方に倣って

L_\mathcal{G} = \left. \diff{}{p_2}{p_1}\right|_\mathcal{G}

と表したりします。

特に$\Omega=\R$のとき、$\mathcal{G}$上で$p_1,p_2$とルベーグ測度$\mu$の間の絶対連続性

\begin{align}
p_1 &\ll \mu \\
p_2 &\ll \mu \\
\mu &\ll p_1
\end{align}

が成り立つならば、$p_1,p_2$の$\mathcal{G}$上での確率密度関数$f^\mathcal{G}_1,f^\mathcal{G}_2$を用いて

\begin{align}
L_\mathcal{G} &= \left. \diff{}{p_2}{p_1}\right|_\mathcal{G} \\
&= \left. \diff{}{p_2}{\mu}　\diff{}{\mu}{p_1}\right|_\mathcal{G} \\
&= \left. \diff{}{p_2}{\mu}　\left( \diff{}{p_1}{\mu} \right)^{-1} \right|_\mathcal{G} \\
&= \frac{f^\mathcal{G}_2}{f^\mathcal{G}_1} \\
\log L_\mathcal{G} &= \log f^\mathcal{G}_2 - \log f^\mathcal{G}_1
\end{align}

と書き表すことができます。

$\mathcal{G} = \mathcal{F}$のときは普通のラドン・ニコディム微分なので、尤度比の記号は$\mathcal{G}$を省略して$L$と書くことにします。

確率変数の尤度比

$\Omega$上の値をとる確率変数$X$の尤度は部分σ加法族として

\mathcal{G} = \sigma[X]

をとったものです。これは像測度を用いて

\begin{align}
\forall E \in \sigma[X]: p_2 &= \int_E L(X(\omega)) dp_1(\omega) \\
&= \int_{X(E)} L(x) d(X_*p_1)(x)
\end{align}

と変形できます。ただし$\mu$は$\R$上のルベーグ測度です。よってこの場合の尤度比は$L:\R \rightarrow \R$の関数として記述できます。

最尤推定

パラメーターの集合$\Theta \subset \R^m$とパラメーター$\theta \in \Theta$に依存する確率空間$(\Omega,\mathcal{F},p_\theta)$をとります。適切なパラメーター(真値)が$\theta_0 \in \Theta$であるとして、

\forall \theta \in \Theta: p_\theta \ll p_{\theta_0}

を仮定します。すると、ラドン・ニコディム微分(確率密度関数)

f(\omega;\theta) = \diff{}{p_\theta}{p_{\theta_0}}

が存在します。また、この確率空間上の独立同一分布に従う$\Omega$上の値をとる確率変数のベクトル$X(\omega) = (X_1(\omega),\cdots,X_n(\omega))$を考えると、積測度を考えればよくて、対数尤度$l:\Omega \rightarrow \R$は　

l_X(\omega;\theta) = \sum_{i=1}^n \log f(X_i(\omega);\theta)

となります。

推定関数

対数尤度をパラメータで微分してつくった確率変数

\psi^{(n)}_i(\omega;\theta) = \frac{1}{n} \pdiff{}{l_X(\omega;\theta)}{\theta_i} 
 = \frac{1}{n} \sum_{i=1}^n \pdiff{}{\log f(X_i(\omega);\theta)}{\theta_i}

を推定関数と言います。すると、大数の法則より

\lip{n \rightarrow \infty}\sup_{\theta \in \Theta} \left| \psi^{(n)}_i(\omega;\theta) - \int_\Omega \pdiff{}{\log f(\omega';\theta)}{\theta_i} dp_{\theta_0}(\omega') \right| = 0

が成り立ちます。

最尤推定量

\psi^{(n)}(\omega;\theta) = 0

の解

\theta = \hat{\theta}_n(\omega)

を最尤推定量と言います。

フィッシャー情報量

I_{ij}(\theta) = \int_\Omega \pdiff{}{\log f(\omega;\theta)}{\theta_i} \pdiff{}{\log f(\omega;\theta)}{\theta_j} dp_{\theta_0}(\omega)

をフィッシャー情報量行列と言います。

一意性定理

$\Theta$が有界であるとき、

\begin{align}
\exists K \in \mathcal{F}|\borel{\R}:& K(\omega)>0, \ \int_\Omega K(\omega) dp_{\theta_0}(\omega) < \infty \\
\exists \gamma > 0:& \forall \theta_1, \theta_2 \in \Theta: \forall \omega \in \Omega: 
\left| \pdiff{}{\log f(\omega,\theta_1)}{\theta_i} - \pdiff{}{\log f(\omega,\theta_2)}{\theta_i} \right| \leq K(\omega)|\theta_1 - \theta_2|^\gamma
\end{align}

そして、

\forall \epsilon > 0: \inf_{\substack{\theta \in \Theta \\ |\theta - \theta_0|> \epsilon }} \left| \int_\Omega  \pdiff{}{\log f(\omega,\theta)}{\theta_i} dp_{\theta_0}(\omega) \right| > 0

が成り立つと仮定します。このもとで

\lip{n \rightarrow \infty}\psi^{(n)}(\omega, \hat{\theta}_n(\omega)) = 0 
\Rightarrow \lip{n \rightarrow \infty} \hat{\theta}_n(\omega) = \theta_0

となります。

漸近正規性定理

$\theta_0$の近傍を$N_{\theta_0} \subset \Theta$と表します。

\begin{align}
\exists K \in \mathcal{F}|\borel{\R}:& K(\omega)>0, \ \int_\Omega K(\omega) dp_{\theta_0}(\omega) < \infty \\
\exists \gamma > 0:& \forall \theta_1, \theta_2 \in N_{\theta_0}^\gamma: \forall \omega \in \Omega: 
\left| \ppdiff{\log f(\omega,\theta_1)}{\theta_i}{\theta_j} - \ppdiff{\log f(\omega,\theta_2)}{\theta_i}{\theta_j} \right| \leq K(\omega)|\theta_1 - \theta_2|^\gamma
\end{align}

が成り立つと仮定します。このもとで

\begin{align}
\lip{n \rightarrow \infty} \frac{1}{\sqrt{n}} \psi^{(n)}(\omega, \hat{\theta}_n(\omega)) = 0, \ 
\lip{n \rightarrow \infty} \hat{\theta}_n(\omega) = \theta_0 \\ 
\Rightarrow  \left( \sqrt{n}(\hat{\theta}_n(\omega) - \theta_0) -  \sqrt{n} I^{-1}(\theta_0)\psi^{(n)}(\omega,\theta_0) \right) \overset{n \rightarrow \infty}{\rightsquigarrow} 0
\end{align}

また、

\begin{align}
X_n &= \sqrt{n}(\hat{\theta}_n(\omega) - \theta_0) \\
Y_n(\omega) &= \sqrt{n} I^{-1}(\theta_0)\psi^{(n)}(\omega,\theta_0)
\end{align}

を用いて$\Theta$の測度を像測度で定義すれば、

\begin{align}
p_{X_n} &\xrightarrow{n \rightarrow \infty} p_{Y_n} \\ 
p_{X_n},p_{Y_n} &\xrightarrow{n \rightarrow \infty} N(0,I^{-1}(\theta_0))
\end{align}

です。ここで、$N(\mu,\Sigma)$は平均ベクトル$\mu$、分散行列$\Sigma$をもつ多次元正規分布です。

以上の性質から最尤推定量は十分大きな$n$に対して$\theta_0$を推定する量として妥当なものになっています。実際の利用法では同じ測定を$n$回行い、$i$回目の測定を$X_i$として最尤推定を行います。

参考

西山陽一「マルチンゲール理論による統計解析」近代科学社
https://www.jstage.jst.go.jp/article/sugaku1947/29/2/29_2_110/_pdf/-char/ja

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up