LoginSignup
1
0

More than 5 years have passed since last update.

Stanによる統計モデリングの勉強-①

Posted at

目的

StanとRでベイズ統計モデリングの勉強用のノート。
勉強した内容を中心に、ポイントをノートしていく

統計モデリングの手順

まず、Chapter3 で気になる点をノートしておく

  • 解析の目的
  • データ分布の確認
  • メカニズムの想像
  • モデル式の記述
  • Rでシミュレーション
  • Stanで実装
    • パラメータ推定
  • 推定結果の解釈
    • 推定結果、確信区間などをもとに解釈、図を描く
  • 図によるモデルのチェック
    • モデルが当てはまっているかを確認

定石

複雑なモデルを扱うと、MCMCが収束しない、最尤推定がうまくいかない、などの問題が起きる。
このような問題を避けるために、シンプルなモデルから試すことが定石。

  • まずは簡単なモデルを使う
  • 説明変数が多数ある場合には、数を絞る
  • 確率変数は独立と考える(極力、多変量正規分布などを使わない)
  • グループ差、個人差などは、最初は考慮しない

再現性のチェック

再現性とは、同じ手順に従う限り、だれがいつどこで実行しても結果が再現できる(同じ結果になる)ことを指す。
これは、昨今(2019/3現在)話題の、GAN系のモデルや深層強化学習でも、問題になっている性質ですね。

再現性は、頑健性とも関連している。

具体的には、以下のようなことをチェックするとよい。(1つの例)
- データを数点除いたり、確率モデルや事前分布をわずかに変えても、推定結果が大きく変わらない
- 異なるデータセットでも同じような結果になるか
- ソフト、アルゴリズムを変えても同じ結果になるか
- ex. WinBUGS、JAGS、Stan と同等の結果が得られるか
- 初期値・乱数を変えても同じ推定結果になるか
- ただし、アルゴリズムが初期値、乱数に依存する場合

モデルの記述方法

グラフィカルモデルを使う。

モデル選択

情報量基準(AIC, BIC, WAIC, WBIC)などを使ってモデル選択することが多い(らしい)。

モデル選択目的では、AIC, BIC を使う理論的妥当性はないらしく、
WAIC, WBIC を使うことが推奨されるとのこと。

情報量基準を使ったモデル選択でも、かならずしもよいモデルが得られるわけではない。(過学習を回避することは、容易ではないため。)

また、情報量基準に頼るがあまり、モデルの探索をおろそかにすることがある点にも注意が必要。

当記事の元書籍では、情報量基準を使うモデル選択の議論をしない、とのこと。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0