*本ポストは 先に投稿した英文 の和訳です。
概要
尤度(Likelihood)の概念を理解するために有用なリソースはすでにたくさんあります。本ポストでは、私が尤度(Likelihood)を理解しようとしたとき当初抱いた疑問とそれに対する答えについて情報を残しておきたいと思います。疑問とは以下の2つです。
疑問1: 尤度(Likelihood) という言葉は常に尤度関数(Likelihood function)を意味しているのか?
疑問2:ベイズの定理に含まれる確率密度関数がなぜ尤度(Likelihood)と呼ばれるのか?
本ポストの意図は、尤度(Likelihood)の概念を学習していて、既存のリソースの説明が何かしっくりときていない方のために、補完的な役割を果たすことです。コメントや示唆などをいただければ幸いです。
尤度
上記質問について考える前に、まず尤度(Likelihood)について再掲しておきたいと思います。
尤度(Likelihood)の前提条件
確率分布$P_\theta (x)$によって分布が規定される確率変数$x$があることを想定します。$P_\theta (x)$は私たちが知りたい真の確率分布です。
尤度(Likelihood)を考えるときはいつでも、同時に以下を想定していることになります:
- $x$についての観測値が複数ある。これを $X^{\prime} = (x_1, x_2, ... )$とします。
- この観測値を説明するために、ある確率分布$p_{\theta}(x)$を想定します。
これらの前提の下で、各観測がそれぞれ独立(依存関係が無い)とすると、尤度関数は次のように定義できます。
L(\theta) = p_{\theta}(x_1) \cdot p_{\theta}(x_2) \cdot p_{\theta}(x_3) ... =
数式の形は確率密度関数と似ているように見えますが、上記の式$L(\theta)$のすべての$x$は定数です。つまり$L(\theta)$は$\theta$の関数で、$L-\theta$平面にプロットすることができます。$\theta$はベクトルでも良いのですが、ここでは説明の都合上スカラーであるとします。
最大尤度推定においいては、この尤度$L(\theta)$を最大にする$\theta=\theta_{best}$を選びます。よく言われるとおり、$\theta$は確率変数ではなく、$L(\theta)$は$\theta$について積分しても 1 になりません。
疑問1: 尤度(Likelihood) という言葉は常に尤度関数(Likelihood function)を意味しているのか?
尤度(Likelihood)という言葉を検索すると、尤度関数(Likelihood function)の説明が多数ヒットします。また尤度関数(Likelihood function)は省略して尤度(Likelihood)とも呼ばれる、との記載が見られます。では尤度という言葉は常に尤度関数を意味しているのか、というのが最初の疑問です。
疑問に対する回答としては、常に尤度関数を意味しているわけではない、ということになります。幾つかの参照先では、尤度関数の値も尤度として計算を行っており、これも尤度と呼ぶことができます。尤度関数の値は尤度と呼ばれますが、これはもちろん関数ではありません。つまり尤度という言葉を目にしたとき、いつも尤度関数を想定することはできない、ということになります。
$\theta$ についてある値 $\theta^{\prime}$ を設定すると、$L(\theta^{\prime})$ の値が決まります。この値は想定した確率モデルが観測値$X^{\prime}$を説明する上でどのぐらい良いか、を相対的に表します。
以上を踏まえると、尤度の説明としては以下のように記載するのが分かりやすいように思います。
尤度(Likelihood)とは、想定された統計モデルが観測値を説明する上での尤もらしさを表す相対的指標である。またこの尤度を計算するためのパラメトリックな関数は尤度関数と呼ばれる。この尤度関数は省略して尤度とも呼ばれる。
尤度関数とその値はともに尤度と呼ばれます。これは、例えば、質点の運動エネルギーが質点の速度の関数として表現されるのと同時に、質点の速度が決まったときのある値も運動エネルギーと呼ばれることと同様だと思います。
疑問2: ベイズの定理に含まれる確率密度関数がなぜ尤度(Likelihood)と呼ばれるのか?
ベイズの定理を考えます。
P(\theta|D) = \frac{P(D|\theta)}{P(D)}P(\theta)
このなかで、条件付確立 $P(D|\theta)$ は尤度と呼ばれます。ベイズの定理は、事前分布$P(\theta)$に尤度をかけて、エビデンス$P(D)$で規格化したものが事後確立$P(\theta|D)$になることを示しています。
教科書などでこのベイズの定理を簡単な例によって説明するとき、$P(D|\theta)$はしばしば既知の条件付確立として計算が行われます。これを見ると$P(D|\theta)$を尤度関数と呼ぶのは正しくないのではないかと感じます。
しかし一般には$P(D|\theta)$の関数形は不明です。一連の観測値$(d_1, d_2, ... )$のみが得られており、その原因となったメカニズム$P(D|\theta)$は不明であることが多いからです。
このため、$P(D|\theta)$は観測値$D$を説明するための統計的にパラメーター$\theta$を持った関数としてモデル化されます。$P(D|\theta)$の形は、おのおのの観測が独立である限り変化しません。
こうした$P(D|\theta)$の説明は、上記の尤度の説明に沿っていると見ることができます。
最大尤度推定(Maximum likelihood estimate : MLE)
最大尤度推定(最尤推定)では、$\theta$の関数である尤度 $P(D|\theta)$ が最大となる$\theta$を求めます。この時の$\theta = \theta^{\prime}$が、観測結果に対して最も確からしい分布を与えるものと考えます。
最大尤度推定では、ベイズの式において、$\frac{P(\theta)}{P(D)}$を定数とみなして、$\theta$の事前分布についての知識を考慮せずに事後分布$P(\theta|D)$を推定していることになります[4]。
ベイズ推定(Bayesian Estimate)
ベイズ推定においては、$\theta$を確率変数(=サイコロの目)として扱い、ある確率分布に従うものと考えます。$\theta$の推定値は何らかの損失関数(例えば分散など)を最小化するように選ばれます [4, 5]。
参照
[1] https://en.wikipedia.org/wiki/Likelihood_function
[2] http://www.genstat.net/statistics.html (Japanese)
[3] https://qiita.com/kenmatsu4/items/b28d1b3b3d291d0cc698 (Japanese)
[4] https://stats.stackexchange.com/questions/74082/what-is-the-difference-in-bayesian-estimate-and-maximum-likelihood-estimate
[5] https://medium.com/datadriveninvestor/maximum-likelihood-estimation-v-s-bayesian-estimation-bfac171a8b85