基本単語
- 最尤法: 観測データが最も起こりやすくなるパラメータ$\theta$(平均、分散 etc.)を推定する方法
- 最尤推定量: 尤度関数を最大にするパラメータ$\theta$(平均、分散 etc.)
- 尤度: あるパラメータ$\theta$のもとで観測データが得られる「もっともらしさ」(パラメータを固定した確率と同じ形)
- 尤度関数: 観測データを固定し,パラメータ$\theta$を変数として「もっともらしさ」を表した関数(独立なら確率の積になる)
- 対数尤度関数: 尤度関数の対数を取ったもの(積を和に変換し,計算や微分を容易にするための関数)
最尤法(Maximum Likelihood Estimation, MLE)
観測データが「最も起こりやすい」となるように、分布のパラメータを決める方法
| 概念 | 入力 | 出力 | 意味 |
|---|---|---|---|
| 最尤法 | 観測データ $x_1,\dots,x_n$ | パラメータ $\theta$ | データを最も説明するパラメータ推定法 |
数式表現
L(\theta)=P(\text{データ群} \mid \theta)
L(\theta)
= \prod_{i=1}^{n} f(x_i \mid \theta)
P(x₁, x₂, ..., xₙ | θ)
=
\prod_{i=1}^{n} P(x_i | \theta)
意味
- $L(\theta)$:尤度関数(Likelihood)
- 「この $\theta$ のもとで、データが出る確率(密度)」
👉 データを固定して、パラメータを動かす関数
対数尤度
定義
\ell(\theta)
= \log L(\theta)
= \sum_{i=1}^{n} \log f(x_i \mid \theta)
意味
- 積 → 和に変換
- 計算が圧倒的に楽になる
👉 MLEではほぼ必ず対数を取る
最尤推定量
定義
\hat{\theta}
= \arg\max_{\theta} L(\theta)
または
\hat{\theta}
= \arg\max_{\theta} \ell(\theta)
求め方(基本)
① 尤度(または対数尤度)を書く
② θで微分
③ 0にする
④ 解く
代表例
ベルヌーイ分布
X_i \sim Ber(p)
尤度関数
L(p)
= \prod_{i=1}^{n} p^{x_i}(1-p)^{1-x_i}
対数尤度
\ell(p)
= \sum_{i=1}^{n}
\left[
x_i \log p + (1-x_i)\log(1-p)
\right]
微分
\frac{d\ell}{dp}
= \frac{\sum x_i}{p}
- \frac{n - \sum x_i}{1-p}
解
\hat{p}
= \frac{1}{n}\sum_{i=1}^{n} x_i
👉 標本平均になる
正規分布(平均のみ未知)
X_i \sim N(\mu, \sigma^2)
($\sigma^2$ は既知)
対数尤度
\ell(\mu)
= -\frac{1}{2\sigma^2}
\sum_{i=1}^{n} (x_i - \mu)^2 + 定数
微分
\frac{d\ell}{d\mu}
= \frac{1}{\sigma^2}
\sum (x_i - \mu)
解
\hat{\mu}
= \frac{1}{n}\sum_{i=1}^{n} x_i
👉 ここでも標本平均
正規分布(分散も未知)
X_i \sim N(\mu, \sigma^2)
結果
\hat{\mu}
= \frac{1}{n}\sum x_i
\hat{\sigma}^2
= \frac{1}{n}\sum (x_i - \hat{\mu})^2
👉 分散は「n」で割る(不偏ではない)
性質
一致性
\hat{\theta} \to \theta \quad (n \to \infty)
👉 データが増えると真の値に近づく
漸近正規性
\sqrt{n}(\hat{\theta}-\theta)
\to N(0, I(\theta)^{-1})
👉 大標本で正規分布に近づく
不偏性(注意)
- 常に不偏ではない
例:
E[\hat{\sigma}^2] \neq \sigma^2
👉 MLE = 最良とは限らない
情報量(フィッシャー情報量)
定義
I(\theta)
= -E\left[
\frac{d^2}{d\theta^2}
\ell(\theta)
\right]
意味
- 尤度の「鋭さ」
- 推定の精度
👉 大きいほど推定しやすい
尤度と確率の違い
| 観点 | 確率 | 尤度 |
|---|---|---|
| 入力 | パラメータ | データ固定 |
| 出力 | 確率値 | 関数(θの関数) |
| 視点 | 「起こる確率」 | 「どのθがもっともらしいか」 |
| 主役 | データが変数 | θが変数 |
準1級での解法パターン
① 分布を書く
→ pmf / pdf
② 尤度関数を書く
→ 独立なら積
③ 対数を取る
→ logに変換
④ 微分して0
→ 最適化
⑤ 解く
→ 推定量
⑥ 必要なら2階微分で確認
→ 最大かどうかチェック
使い分け
最尤法を使う場面
・パラメータ推定
・モデルフィッティング
・回帰(ロジスティック回帰など)
👉 データからモデルを決めるとき
他手法との比較
| 手法 | 特徴 |
|---|---|
| 最尤法 | データに最も合う |
| 不偏推定 | 平均的に正しい |
| ベイズ | 事前分布を考慮 |
まとめ
| 概念 | 入力 | 出力 | 役割 |
|---|---|---|---|
| 尤度関数 | データ | 関数 | パラメータの良さを評価 |
| 最尤推定量 | 尤度最大化 | 数値 | パラメータ推定 |
| 対数尤度 | 尤度 | 関数 | 計算簡略化 |
| フィッシャー情報 | パラメータ | 数値 | 推定精度の指標 |