【統計モデリング】2章確率分布と統計モデルの最尤推定 #統計

統計モデリング(通称：緑本)を勉強したので、1章ずつ記事にしておく。

緑本を読んだことがない人も理解できるように書いていく。
教えることが最強の勉強法らしいからね。

統計モデリングの流れ

観測データを得てから、良い統計モデルを作るまでの流れをざっくり説明

確率分布のパラメータを推定する。
そのためには 尤度関数 が必要となる。

ちなみに、尤度とは、 「観測データへの当てはまりの良さ」 である。

最尤推定に戻ると、、、
尤度関数を求める
=> 対数変換した対数尤度関数にする
=> 対数尤度を最大化
=> 最尤推定量のパラメータを導き出す

そして、対数尤度を最大にする $\hat{\theta}$ を導き出す

統計モデルの基本部分である 確率分布 はどんな役割があるんだろう。

数字の羅列を見たとき、「こういうばらつきのあるデータは、何かの確率分布から発生したと考えれば、扱いやすいだろうなぁ」と考えるのが、統計モデリングの第一歩である。

では、実際にデータが集まったら、どのような手順で予測まで行うかを追っていく。

僕は今まで、統計とか機械学習を勉強してきたが、「推定」と「予測」の違いが、イマイチつかめなかった。

ということで、ここではっきりさせておく。

手元にある限定された個数のデータから元の確率分布に近い確率分布を探すこと。
つまり、パラメータを見つけ出すこと。

推定された確率分布(統計モデル)をうまく図示することが、予測と言ってもいい。
つまり、次に得られるデータを作ること。

統計モデルの基本部品である確率分布の選ぶ基準を3つ紹介する。

この章を学習した上で、到達したゴールは、

「この統計モデリングでは、このような理由で、この確率分布を使いました。」

と人に説明できるようになることだ。