More than 1 year has passed since last update.

尤度関数/最尤法入門(未完)

Last updated at 2023-05-30Posted at 2023-05-28

Abstract

最尤法について、例を中心に入門的概要を述べる。

Introduction

統計学における我々の問題は、
データから母集団の(真の)分布関数の形を推定すること
である。その際、

関数の形を(ガウス関数とかベルヌーイ関数とか)を仮定する
仮定した関数のパラメーター(山の中心とか、裾の広さとか)を決定する
という2段階を踏む。
最尤法は、2段階目の、関数のパラメーター決定の手法である。

パラメーター決定の手法は、最尤法以外にも、たとえば「普通の期待値計算」「ベイズ法」などがある。これらについては付録で述べる。

本論

最尤法の心は、
「実際に起きたこと＝最も起こりやすいこと」
である。
この原理の下、コイン投げの例を考える。

「あるコインを1000回投げた結果600回表が出たというデータ」があるとする。
ここで、表が出る確率を$\theta$、「1000回投げた結果600回表が出る確率」を$L(\theta)$とすると、我々が推定するべきパラメーターは「表が出る確率$\theta$」である。

すると、
実際に起きたこと＝「あるコインを1000回投げた結果600回表が出たというデータ」
最も起こりやすい＝$L(\theta)$が最大

といえる。最尤法の心に従えば、パラメーター$\theta$の最適値は、$L(\theta)$の最大点、ということになる。

コイン投げの試行をベルヌーイ試行と解釈すると、$L(\theta)$は、
$L(\theta)$=$\binom{1000}{600} \theta^{600} (1 - \theta)^{1000 - 600}$
となる。冪関数は滑らかな関数なので、最大点においては$\frac{dL}{d \theta} = 0$ となっているはずであり、これにより最大点は、$\theta^{*} = 0.6$ と計算できる。
(実際に計算する上では対数尤度の微分を考えた方が計算が楽である)

この結果が我々に教えてくれることは、

コイン投げをベルヌーイ試行と解釈したときに、「あるコインを1000回投げた結果600回表が出たというデータ」を説明するとき、表が出る確率$\theta$として"最も確からしい"値は0.6である、ということである。

$L(\theta)$を尤度関数、または単に尤度という。
最尤法とは、尤度の最大値を与えるパラメーターを最適な推定値とする考え方である。
(ただし、尤度関数は付録で述べるベイズ法にも登場する)

\footnote{ここで、$\theta$として$0.5$や$0.8$ではダメな理由は以下のとおりである。
$\theta$として$0.5$や$0.8$を代入すると、$L$ の値は$\theta = 0.6$と比べて小さくなる。より大きな$L$ を与える$\theta$ があるにもかかわらず、そうではない$\theta$を採用することは、
「実際に起きたこと=最も起こりやすいこと」
という思想に反している。}

確率分布関数と尤度の関係

このコインを1000回投げたときに表が出る回数の確率変数を$X$として、確率分布関数を$f(X|\theta)$ とすると、$L(\theta) = f(X = 600| \theta) $ の関係がある。

ガウス分布

@@@ 続く
ko

付録A: 最尤法以外のパラメーター推定手法

ここでは、最尤法以外のパラメーター推定手法で表が出る確率$\theta$を推定する手順を紹介する。

普通の期待値計算

1000回のコイン投げのうち600回表が出たというデータから、表が出る確率$\theta$は
$\theta = 600/1000 = 0.6$

ベイズ法

ベイズ法は、ベイズ統計学というとても変わった特殊な統計学に立脚したパラメーター推定法で、頻度論的アプローチである最尤法とは大きく異なる。
ベイズ法は、パラメーター$\theta$についての確率密度関数を使って$\theta$の期待値$E[\theta]$を計算し、それを最適なパラメーター推定値とする方法である。
(ベイズ法、ベイズ論を知らない人は先にこのページを見てください)

$ P(\theta | X)$ は$X$回表が出たというデータを与えられた後の$\theta$の条件付確率分布であり、事後分布と呼ばれる。これがまさに期待値計算に使える確率密度関数である。

ベイズの定理の式
$P(X|\theta) P(\theta) = P(\theta | X) P(X)$
の両辺を$\theta$で積分すると、確率条件 $\int P(\theta | X) d\theta = 1$を用いると、
$P(X) =\int_{0}^{1} P(X|\theta) P(\theta) d\theta$
が得られ、
$P(\theta | X) = \frac{P(X|\theta) P(\theta)}{\int_{0}^{1} P(X|\theta) P(\theta) d\theta}$

よって、

$E[\theta] = \int \theta P(\theta|X)d\theta = \frac{\int_{0}^{1} \theta P(X|\theta) P(\theta)d\theta}{\int_{0}^{1} P(X|\theta) P(\theta) d\theta}$

計算に必要な$P(\theta)$と$P(X|\theta)$の関数形を仮定する必要がある。
$P(X|\theta)$は尤度であり、先ほどと同様、二項分布を仮定すればよい
$P(X|\theta) = Bi(X;N,\theta)$

$P(\theta)$は何かというと、「表がでたコインの枚数$X$」というデータを考慮せず、それとは別のデータ(たとえばコインの曲がり具合など)をもとに恣意的に見積もられる$\theta$の確率分布であり、事前分布と呼ばれる。今回は見積もるための何も情報がない。このような状況での事前分布は「無情報事前分布」と呼ばれ、一様分布を仮定する場合が多い。よって、そうする。

その際、計算の労力を減らすテクニックとして、一様分布をベータ関数の$(\alpha,\beta) = (1,1)$のケースとして表現する。すると、

@@未完

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up