統計モデリング(通称:緑本)を勉強したので、1章ずつ記事にしておく。
緑本を読んだことがない人も理解できるように書いていく。
教えることが最強の勉強法らしいからね。
統計モデリングの流れ
観測データを得てから、良い統計モデルを作るまでの流れをざっくり説明
- どのような確率分布・統計モデルで観測データを説明するか
- 確率分布のパラメータはどうやって決めるか
- 決めた統計モデルが、推測データを説明できる良いものかを評価
パラメータの最尤推定
確率分布のパラメータを推定する。
そのためには 尤度関数 が必要となる。
尤度
ちなみに、尤度とは、 「観測データへの当てはまりの良さ」 である。
最尤推定に戻ると、、、
尤度関数を求める
=> 対数変換した対数尤度関数にする
=> 対数尤度を最大化
=> 最尤推定量のパラメータを導き出す
尤度と最尤推定の一般化
θをパラメータとする確率分布から、観測データ $y_i$ が発生した場合
- 確率は、 $p(y_i| \theta)$
- 尤度は、 $L(\theta|Y) = \Pi p(y_i| \theta)$
- 対数尤度は、 $\log L(\theta|Y) = \sum \log p(y_i| \theta)$
そして、対数尤度を最大にする $\hat{\theta}$ を導き出す
確率分布の導入は第一歩
統計モデルの基本部分である 確率分布 はどんな役割があるんだろう。
数字の羅列を見たとき、「こういうばらつきのあるデータは、何かの確率分布から発生したと考えれば、扱いやすいだろうなぁ」と考えるのが、統計モデリングの第一歩である。
データ取得から予測までの流れ
では、実際にデータが集まったら、どのような手順で予測まで行うかを追っていく。
- 観測データを見たときに、「○○分布で説明できる」と仮定する。
- 「パラメータ○はどんな値だろう?」と気にする。
- 推定 する。 (今回は最尤推定により、パラメータの最尤推定量を取得している)
- 推定で得られたパラメータを使って、統計モデルを作る。
- 予測 する。 統計モデルを使って、同じ調査方法で得られる次のデータの分布を見積もる
- 予測の良さを評価する。
推定と予測の違い
僕は今まで、統計とか機械学習を勉強してきたが、「推定」と「予測」の違いが、イマイチつかめなかった。
ということで、ここではっきりさせておく。
推定
手元にある限定された個数のデータから元の確率分布に近い確率分布を探すこと。
つまり、パラメータを見つけ出すこと。
予測
推定された確率分布(統計モデル)をうまく図示することが、予測と言ってもいい。
つまり、次に得られるデータを作ること。
確率分布の選び方
統計モデルの基本部品である確率分布の選ぶ基準を3つ紹介する。
- 説明したい量は、離散か連続か?
- 説明したい量の範囲は?
- 説明したい量の標本分散と標本平均の関係は?
ゴール
この章を学習した上で、到達したゴールは、
「この統計モデリングでは、このような理由で、この確率分布を使いました。」
と人に説明できるようになることだ。