読書ノート
緑本ことデータ解析のための統計モデリング入門の勉強会を行ったので復習も兼ねて要点整理とメモをします。
Rコードや基礎的な統計知識については基本的に省き、自分が緑本で重要だなと思ったポイントを独断と偏見で書き殴ります。
著者の久保先生の公式サイトからいろいろな情報やまとめノートのリンクもあるのでこちらも参考にさせていただきます。
データと確率分布とパラメータ
具体的なデータと、データのばらつきを見てみます。
ある50個の植物$(i=1・・・50)$から取れる種子数を$y_i$とします。
ここで
・$y_i$は0以上の整数
・$y_i$の平均は3.56(データより取れる標本平均)
・種子数にばらつきがあるっぽい(分散は2.99)
とします。
このようなばらつきのあるデータをあらわすためには確率分布の概念が便利です。
分布にはパラメータがあり、例えば正規分布であれば平均と分散がそれにあたります。
このデータの確率分布を知りたい時にはどうすれば良いでしょうか。
まず、この種のデータはゼロ以上で上限が不明なこと、整数のカウントデータであることから平均3.56のポアソン分布に従うと仮定します。
そしてポアソン分布のパラメータは一つで$\lambda$と書かれるのが一般的。
特徴的なのは$\lambda$$=$平均$=$分散であることです。この種データも平均と分散がそれぞれ3.56, 2.99と近いのでまあポアソン分布と仮定しも良いかなということで進めましょう。
パラメータの推定:最尤推定法
ポアソン分布に従うと決めたのは良いものの、パラメータ$\lambda$が不明です。
ここでは最尤推定法でパラメータを推定します。
最尤推定法自体はポアソン分布以外のどのような確率分布でも適用できます。
最尤推定法は「尤度」というあてはまりの良さを最大にするようなパラメータを探す方法です。今回探すパラメータは$\lambda$です。
尤度とは、ある$\lambda$の値を決めたときに、すべての個体$i$についての$p(y_i|\lambda)$の積です。
例えば$\lambda$を$\lambda_t$という定数だとしましょう。
このときの尤度を$L(\lambda_t)$とすると、上の定義に則ると
$L(\lambda_t)=$($\lambda=\lambda_t$の下で$y_1$の確率)$\times$($\lambda=\lambda_t$の下で$y_2$の確率)$\times$・・・($\lambda=\lambda_t$の下で$y_50$の確率)
↓
$L(\lambda_t)=\prod_ip(y_i|\lambda_t)=\prod_i\dfrac{\lambda_t^{y_i}exp(-\lambda_t)}{y_i!}$
$(i=1・・・50)$
右辺はポアソン分布の確率密度関数。
なんで確率の積なのかというと、$y_1$がある特定の値かつ$y_2$がある特定の値で・・・・と、この$i=1・・・50$の50個の事象が同時に起こる確率を計算したいからです。
尤度関数$L(\lambda)$はわかりましたがなんだか扱いにくい。なので対数変換します。
ここからは一般化するため$\lambda_t$ではなく$\lambda$で表記します。
$\log L(\lambda)=\sum_i (y_i\log \lambda-\lambda-\sum_k^{y_i} \log k)$
尤度、対数尤度は大きいほどデータに対する分布のあてはまりが良くなります。
なので対数尤度が最大になる$\lambda$を探します。$\log L(\lambda)$の傾きがゼロになる点が最大値となるので偏微分して
$\frac{\partial \log L(\lambda)}{\partial \lambda}=\sum_i\{\frac{y_i}{\lambda}-1\}=\frac{1}{\lambda}\sum_iy_i-50$
これがゼロの時、最尤推定値$\hat{\lambda}$が求まるので
$\hat{\lambda}=\frac{1}{50}\sum_iy_i=\frac{データ総和}{データ数}=データの平均=3.56$
これは最初に示した本データの平均と等しくなりました。
まとめ
・データの特徴から確率分布を仮定する
・あるパラメータ$(\theta)$を推定するには最尤推定法を使う
・最尤推定値は確率の積である$L(\theta)=\prod_ip(y_i|\theta)$を対数変換した$\log L(\theta)=\sum_i\log p(y_i|\theta)$の最大値である。