目的
StanとRでベイズ統計モデリングの勉強用のノート。
勉強した内容を中心に、ポイントをノートしていく
統計モデリングの手順
まず、Chapter3 で気になる点をノートしておく
- 解析の目的
- データ分布の確認
- メカニズムの想像
- モデル式の記述
- Rでシミュレーション
- Stanで実装
- パラメータ推定
- 推定結果の解釈
- 推定結果、確信区間などをもとに解釈、図を描く
- 図によるモデルのチェック
- モデルが当てはまっているかを確認
定石
複雑なモデルを扱うと、MCMCが収束しない、最尤推定がうまくいかない、などの問題が起きる。
このような問題を避けるために、シンプルなモデルから試すことが定石。
- まずは簡単なモデルを使う
- 説明変数が多数ある場合には、数を絞る
- 確率変数は独立と考える(極力、多変量正規分布などを使わない)
- グループ差、個人差などは、最初は考慮しない
再現性のチェック
再現性とは、同じ手順に従う限り、だれがいつどこで実行しても結果が再現できる(同じ結果になる)ことを指す。
これは、昨今(2019/3現在)話題の、GAN系のモデルや深層強化学習でも、問題になっている性質ですね。
再現性は、頑健性とも関連している。
具体的には、以下のようなことをチェックするとよい。(1つの例)
- データを数点除いたり、確率モデルや事前分布をわずかに変えても、推定結果が大きく変わらない
- 異なるデータセットでも同じような結果になるか
- ソフト、アルゴリズムを変えても同じ結果になるか
- ex. WinBUGS、JAGS、Stan と同等の結果が得られるか
- 初期値・乱数を変えても同じ推定結果になるか
- ただし、アルゴリズムが初期値、乱数に依存する場合
モデルの記述方法
グラフィカルモデルを使う。
モデル選択
情報量基準(AIC, BIC, WAIC, WBIC)などを使ってモデル選択することが多い(らしい)。
モデル選択目的では、AIC, BIC を使う理論的妥当性はないらしく、
WAIC, WBIC を使うことが推奨されるとのこと。
情報量基準を使ったモデル選択でも、かならずしもよいモデルが得られるわけではない。(過学習を回避することは、容易ではないため。)
また、情報量基準に頼るがあまり、モデルの探索をおろそかにすることがある点にも注意が必要。
当記事の元書籍では、情報量基準を使うモデル選択の議論をしない、とのこと。