【入門】尤度と最尤推定とその周辺知識について

Last updated at 2020-05-05Posted at 2020-05-03

尤度とその周辺知識を学習する際にまとめたものです。
入門者向けです。

扱うテーマはこんな感じになっています

尤度とは

尤度$L$はその値が観測される確率$ p(x1), …, p(x_N) $を用いて下式のように表されます。 (ただし、$ x_i $は互いに独立であるとします)

$ L=\prod_{i=0}^n x_i $

これは同時確率の計算と同じでは？

【用語】

- 同時確率
  - ある確率の事象XとYが同時に起きる確率を同時確率
- 条件付き確率
  - ある事象が起こる前提のもとで、別のある事象が起こる確率を条件付き確率

同時確率の計算と同じでは？
→ 式は同じ
→ でも違うものとして定義されている
→ ということはその式の示す意味が違う

尤度は観測データが分かっている状態で、それらのデータに対して、あるパラメータを与えた時どれだけ尤もらしいかを意味している

（例）
コインが1枚ある。このコインを10回投げたところ、9回表が出た。このコインの表が出る確率はいくつか？

観測データが分かっている状態で、

→ 「コインが1枚ある。このコインを10回投げたところ、9回表が出た。」という状態

あるパラメータを与えた時どれだけ尤もらしいか

→ パラメータ=確率分布
→ 例えばコインの表が出る確率を1/2とすると

$$ \begin{eqnarray*} _{10} C _9 \end{eqnarray*}(\frac{1}{2})^9(\frac{1}{2})^1=\frac{10}{1024}\approx0.977% $$

これが尤度

この場合はパラメータを1/2として与えましたが、ここを変化させていくことで複数の尤度の値を求めることができる
そしてこれらは、それぞれのパラメータが与えられた時、観測データ（= 「コインが1枚ある。このコインを10回投げたところ、9回表が出た。」）がどのくらいの確率で得られるか、ということを表している

最尤推定

ここまでで、あるパラメータを与えた時に観測データ（= 「コインが1枚ある。このコインを10回投げたところ、9回表が出た。」）がどのくらいの確率で得られるか、ということを導出できました。

それらの「尤度」の中から最も値が大きいもの
= 観測データを得る確率が最も大きいものを推定することを「最尤推定」といい、その推定値のことを「最尤推定量（値）」と呼びます。

最尤推定や最尤法とは、統計学において、与えられたデータからそれが従う確率分布の母数を点推定する方法である。

引用: wikipedia

【用語】

- 点推定
  - 平均値などを1つの値で推定すること。
- 区間推定
  - 平均値などをある区間でもって推定すること。

例えば、上の例の場合、最尤推定量は9/10となります。
これは感覚でわかると思うのですが、ではそれを抽象化するとどうなるでしょう？

尤度とは

観測データが分かっている状態で、それらのデータに対して、あるパラメータを与えた時どれだけ尤もらしいかを意味している

ものでした。

ここでパラメータ$θ$に従う確率密度関数を$f(x;θ)$と置いてみます
→ これは尤度の定義にある、「あるパラメータを与えた時」という状態を$;θ$で表している密度関数です
→ 尤度は「観測データが分かっている状態で」この$θ$の値を求めることであるので、尤度関数は$x$を与えた場合での$θ$の関数と捉えることができ、
$$L(θ;x) = f(x;θ)$$
と表すことができます。
→ この最大化をしたいので、$θ$について微分を行うことで最尤推定量が導き出されます

【用語】

連続型確率変数がある値をとるという事象の確率密度を記述する関数である。確率変数がある範囲の値をとる確率を、その範囲にわたって確率密度関数を積分することにより得ることができるよう定義される。確率密度関数の値域は非負の実数であり、定義域全体を積分すると1である。

引用: wikipedia

確率変数X が連続的な値をとる連続確率変数であるときに X がある範囲 [a, b] をとる確率を P とした場合，その確率を与える以下の関数 f(x) を確率密度関数という．確率密度関数は，累積分布関数を意味する CDF に対して PDF と略記されることがある．

P(a≤x≤b)=∫baf(x)dx(1)

引用: データ科学便覧確率密度関数と確率質量関数

最尤推定とベイズ推定

対象を推定する方法として最尤推定と共に話題に上がるのがベイズ推定です。

ベイズ推定とはなんでしょう？

ベイズ推定（ベイズすいてい、英: Bayesian inference）とは、ベイズ確率の考え方に基づき、観測事象（観測された事実）から、推定したい事柄（それの起因である原因事象）を、確率的な意味で推論することを指す。

ベイズの定理が基本的な方法論として用いられ、名前の由来となっている。統計学に応用されてベイズ統計学[1]の代表的な方法となっている。

引用: wikipedia

その方法論である「ベイズの定理」とは次のように定義されています

$$ P(A|B)=\frac{P(B|A)P(A)}{P(B)} $$

$P(A|B)$: 事後確率¹
$P(B|A)$: 尤度
$P(A)$: 事前確率（他に情報がない状況で、ある事象が観測される確率）

最尤推定が、尤度を最大化するパラメータを推定していく方法であったのに対し、
ベイズ推定は上記の式が示すように尤度と事前確率を元に推定を行っている、
と言うことができます。

言い換えると、
最尤推定法は、
"今取得したデータの確率のみ使用してパラメータを推定"し、
ベイズ推定は、
"今取得したデータだけでなく、過去の推定結果や
経験に基づく事前確率も使用してパラメータを推定"
する方法だということです。

引用: 尤度とは何者なのか？ My Enigma

参考

事後確率は条件付き確率の一種である、という関係性がある（wikipedia） ↩

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up