LoginSignup
5
2

More than 5 years have passed since last update.

【統計モデリング】2章 確率分布と統計モデルの最尤推定

Posted at

統計モデリング(通称:緑本)を勉強したので、1章ずつ記事にしておく。

緑本を読んだことがない人も理解できるように書いていく。
教えることが最強の勉強法らしいからね。

統計モデリングの流れ

観測データを得てから、良い統計モデルを作るまでの流れをざっくり説明

  • どのような確率分布・統計モデルで観測データを説明するか
  • 確率分布のパラメータはどうやって決めるか
  • 決めた統計モデルが、推測データを説明できる良いものかを評価

パラメータの最尤推定

確率分布のパラメータを推定する。
そのためには 尤度関数 が必要となる。

尤度

ちなみに、尤度とは、 「観測データへの当てはまりの良さ」 である。

最尤推定に戻ると、、、
尤度関数を求める
=> 対数変換した対数尤度関数にする
=> 対数尤度を最大化
=> 最尤推定量のパラメータを導き出す

尤度と最尤推定の一般化

θをパラメータとする確率分布から、観測データ $y_i$ が発生した場合
- 確率は、 $p(y_i| \theta)$
- 尤度は、 $L(\theta|Y) = \Pi p(y_i| \theta)$
- 対数尤度は、 $\log L(\theta|Y) = \sum \log p(y_i| \theta)$

そして、対数尤度を最大にする $\hat{\theta}$ を導き出す

確率分布の導入は第一歩

統計モデルの基本部分である 確率分布 はどんな役割があるんだろう。

数字の羅列を見たとき、「こういうばらつきのあるデータは、何かの確率分布から発生したと考えれば、扱いやすいだろうなぁ」と考えるのが、統計モデリングの第一歩である。

データ取得から予測までの流れ

では、実際にデータが集まったら、どのような手順で予測まで行うかを追っていく。

  1. 観測データを見たときに、「○○分布で説明できる」と仮定する。
  2. 「パラメータ○はどんな値だろう?」と気にする。
  3. 推定 する。 (今回は最尤推定により、パラメータの最尤推定量を取得している)
  4. 推定で得られたパラメータを使って、統計モデルを作る。
  5. 予測 する。 統計モデルを使って、同じ調査方法で得られる次のデータの分布を見積もる
  6. 予測の良さを評価する。

推定と予測の違い

僕は今まで、統計とか機械学習を勉強してきたが、「推定」と「予測」の違いが、イマイチつかめなかった。

ということで、ここではっきりさせておく。

推定

手元にある限定された個数のデータから元の確率分布に近い確率分布を探すこと。
つまり、パラメータを見つけ出すこと。

予測

推定された確率分布(統計モデル)をうまく図示することが、予測と言ってもいい。
つまり、次に得られるデータを作ること。

確率分布の選び方

統計モデルの基本部品である確率分布の選ぶ基準を3つ紹介する。

  • 説明したい量は、離散か連続か?
  • 説明したい量の範囲は?
  • 説明したい量の標本分散と標本平均の関係は?

ゴール

この章を学習した上で、到達したゴールは、

「この統計モデリングでは、このような理由で、この確率分布を使いました。」

と人に説明できるようになることだ。

5
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
2