LoginSignup
1
1

測度論に基づく最尤推定

Last updated at Posted at 2022-11-30

で測度論に基づく確率論を説明しました。これに続いて最尤推定も測度論に基づいて構成されます。

\newcommand{\R}{\mathbb{R}}
\newcommand{\borel}[1]{\mathcal{B}(#1)}
\newcommand{\diff}[3]{\frac{d^{#1}#2}{d^{#1} #3}}
\newcommand{\pdiff}[3]{\frac{\partial^{#1}#2}{\partial^{#1} #3}}
\newcommand{\ppdiff}[3]{\frac{\partial^2 #1}{\partial #2 \partial #3}}
\newcommand{\lip}[1]{\underset{#1}{\mathrm{l.i.p.}}}

尤度比

可測空間$(\Omega,\mathcal{F})$上に2つの確率測度$p_1,p_2$が定義されています。部分σ加法族$\mathcal{G} \subset \mathcal{F}$をとったとき、
$\mathcal{G}$について$p_2 \ll p_1$であり、ある確率変数$L_\mathcal{G}$を用いて

\forall E \in \mathcal{G}: p_2(E) = \int_E L_\mathcal{G}(\omega) dp_1(\omega)

となるとします。このときの確率変数$L_\mathcal{G}:\Omega \rightarrow \R$、つまり、$p_1,p_2$の$\mathcal{G}$への制限に対するラドン・ニコディム微分を尤度比と言います。ラドン・ニコディム微分の表し方に倣って

L_\mathcal{G} = \left. \diff{}{p_2}{p_1}\right|_\mathcal{G}

と表したりします。

特に$\Omega=\R$のとき、$\mathcal{G}$上で$p_1,p_2$とルベーグ測度$\mu$の間の絶対連続性

\begin{align}
p_1 &\ll \mu \\
p_2 &\ll \mu \\
\mu &\ll p_1
\end{align}

が成り立つならば、$p_1,p_2$の$\mathcal{G}$上での確率密度関数$f^\mathcal{G}_1,f^\mathcal{G}_2$を用いて

\begin{align}
L_\mathcal{G} &= \left. \diff{}{p_2}{p_1}\right|_\mathcal{G} \\
&= \left. \diff{}{p_2}{\mu} \diff{}{\mu}{p_1}\right|_\mathcal{G} \\
&= \left. \diff{}{p_2}{\mu} \left( \diff{}{p_1}{\mu} \right)^{-1} \right|_\mathcal{G} \\
&= \frac{f^\mathcal{G}_2}{f^\mathcal{G}_1} \\
\log L_\mathcal{G} &= \log f^\mathcal{G}_2 - \log f^\mathcal{G}_1
\end{align}

と書き表すことができます。

$\mathcal{G} = \mathcal{F}$のときは普通のラドン・ニコディム微分なので、尤度比の記号は$\mathcal{G}$を省略して$L$と書くことにします。

確率変数の尤度比

$\Omega$上の値をとる確率変数$X$の尤度は部分σ加法族として

\mathcal{G} = \sigma[X]

をとったものです。これは像測度を用いて

\begin{align}
\forall E \in \sigma[X]: p_2 &= \int_E L(X(\omega)) dp_1(\omega) \\
&= \int_{X(E)} L(x) d(X_*p_1)(x)
\end{align}

と変形できます。ただし$\mu$は$\R$上のルベーグ測度です。よってこの場合の尤度比は$L:\R \rightarrow \R$の関数として記述できます。

最尤推定

パラメーターの集合$\Theta \subset \R^m$とパラメーター$\theta \in \Theta$に依存する確率空間$(\Omega,\mathcal{F},p_\theta)$をとります。適切なパラメーター(真値)が$\theta_0 \in \Theta$であるとして、

\forall \theta \in \Theta: p_\theta \ll p_{\theta_0}

を仮定します。すると、ラドン・ニコディム微分(確率密度関数)

f(\omega;\theta) = \diff{}{p_\theta}{p_{\theta_0}}

が存在します。また、この確率空間上の独立同一分布に従う$\Omega$上の値をとる確率変数のベクトル$X(\omega) = (X_1(\omega),\cdots,X_n(\omega))$を考えると、積測度を考えればよくて、対数尤度$l:\Omega \rightarrow \R$は 

l_X(\omega;\theta) = \sum_{i=1}^n \log f(X_i(\omega);\theta)

となります。

推定関数

対数尤度をパラメータで微分してつくった確率変数

\psi^{(n)}_i(\omega;\theta) = \frac{1}{n} \pdiff{}{l_X(\omega;\theta)}{\theta_i} 
 = \frac{1}{n} \sum_{i=1}^n \pdiff{}{\log f(X_i(\omega);\theta)}{\theta_i}

を推定関数と言います。すると、大数の法則より

\lip{n \rightarrow \infty}\sup_{\theta \in \Theta} \left| \psi^{(n)}_i(\omega;\theta) - \int_\Omega \pdiff{}{\log f(\omega';\theta)}{\theta_i} dp_{\theta_0}(\omega') \right| = 0

が成り立ちます。

最尤推定量

\psi^{(n)}(\omega;\theta) = 0

の解

\theta = \hat{\theta}_n(\omega)

を最尤推定量と言います。

フィッシャー情報量

I_{ij}(\theta) = \int_\Omega \pdiff{}{\log f(\omega;\theta)}{\theta_i} \pdiff{}{\log f(\omega;\theta)}{\theta_j} dp_{\theta_0}(\omega)

をフィッシャー情報量行列と言います。

一意性定理

$\Theta$が有界であるとき、

\begin{align}
\exists K \in \mathcal{F}|\borel{\R}:& K(\omega)>0, \ \int_\Omega K(\omega) dp_{\theta_0}(\omega) < \infty \\
\exists \gamma > 0:& \forall \theta_1, \theta_2 \in \Theta: \forall \omega \in \Omega: 
\left| \pdiff{}{\log f(\omega,\theta_1)}{\theta_i} - \pdiff{}{\log f(\omega,\theta_2)}{\theta_i} \right| \leq K(\omega)|\theta_1 - \theta_2|^\gamma
\end{align}

そして、

\forall \epsilon > 0: \inf_{\substack{\theta \in \Theta \\ |\theta - \theta_0|> \epsilon }} \left| \int_\Omega  \pdiff{}{\log f(\omega,\theta)}{\theta_i} dp_{\theta_0}(\omega) \right| > 0

が成り立つと仮定します。このもとで

\lip{n \rightarrow \infty}\psi^{(n)}(\omega, \hat{\theta}_n(\omega)) = 0 
\Rightarrow \lip{n \rightarrow \infty} \hat{\theta}_n(\omega) = \theta_0 

となります。

漸近正規性定理

$\theta_0$の近傍を$N_{\theta_0} \subset \Theta$と表します。

\begin{align}
\exists K \in \mathcal{F}|\borel{\R}:& K(\omega)>0, \ \int_\Omega K(\omega) dp_{\theta_0}(\omega) < \infty \\
\exists \gamma > 0:& \forall \theta_1, \theta_2 \in N_{\theta_0}^\gamma: \forall \omega \in \Omega: 
\left| \ppdiff{\log f(\omega,\theta_1)}{\theta_i}{\theta_j} - \ppdiff{\log f(\omega,\theta_2)}{\theta_i}{\theta_j} \right| \leq K(\omega)|\theta_1 - \theta_2|^\gamma
\end{align}

が成り立つと仮定します。このもとで

\begin{align}
\lip{n \rightarrow \infty} \frac{1}{\sqrt{n}} \psi^{(n)}(\omega, \hat{\theta}_n(\omega)) = 0, \ 
\lip{n \rightarrow \infty} \hat{\theta}_n(\omega) = \theta_0 \\ 
\Rightarrow  \left( \sqrt{n}(\hat{\theta}_n(\omega) - \theta_0) -  \sqrt{n} I^{-1}(\theta_0)\psi^{(n)}(\omega,\theta_0) \right) \overset{n \rightarrow \infty}{\rightsquigarrow} 0
\end{align}

また、

\begin{align}
X_n &= \sqrt{n}(\hat{\theta}_n(\omega) - \theta_0) \\
Y_n(\omega) &= \sqrt{n} I^{-1}(\theta_0)\psi^{(n)}(\omega,\theta_0)
\end{align}

を用いて$\Theta$の測度を像測度で定義すれば、

\begin{align}
p_{X_n} &\xrightarrow{n \rightarrow \infty} p_{Y_n} \\ 
p_{X_n},p_{Y_n} &\xrightarrow{n \rightarrow \infty} N(0,I^{-1}(\theta_0))
\end{align}

です。ここで、$N(\mu,\Sigma)$は平均ベクトル$\mu$、分散行列$\Sigma$をもつ多次元正規分布です。

コメント

以上の性質から最尤推定量は十分大きな$n$に対して$\theta_0$を推定する量として妥当なものになっています。実際の利用法では同じ測定を$n$回行い、$i$回目の測定を$X_i$として最尤推定を行います。

参考

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1