前記事
参考書
多変量解析入門 小西貞則著
AIC
$AIC$は元はAn information criterion, Akaike's information criterionである.
情報量基準AICとは情報の尤度が低いものを貴重とする考え方で以下の式で与えられる。
$$AIC = -2(モデルの最大対数尤度)+2(モデルの自由パラメータ数)$$
つまりAICが低い方が尤度が高く、その時の変数の組が最も適切なモデルとされる.
これは第一項のみでいいように一見思える。
(注:対数関数は増加関数である。繰り返しになるが尤度は確からしさのこと。)
ただし、観測したデータに対して当てはまりの良いモデルを求めるには多数のパラメータを含む複雑モデルのほうが良いが、複雑すぎるモデルは将来の現象予測には有効に働かない。
これは多項式からなる関数において、問題によっては局所近似(マクローリン展開)して2次以上の項を無視するのと同様、なるべく“項の数”を減らした方が考えやすいという発想である。特にパラメータの数が多すぎると偶発的な要因もモデルに組み込まれてしまう。
将来予測の観点から最適なモデルを選択するには、モデルのデータへの適合度とモデルの複雑さを適切に制御する必要がある.
第一項はモデルの当てはまりの良さを最大対数尤度で測り、第二項は自由パラメータ数がモデルの複雑さに対するペナルティとして機能しているといえる。
ちなみに
変数の取り方によってモデルの有り様は変わる。
$$F = X_1 + {X_2}^2$$
と表される関数$F$が、$(X_1, X_2)=(時間t, 質量m)$とするのか
$(X_1, X_2)=(長さl, 質量m)$とするかで指し示すものは異なる。
前回の内容を引き継ぐ
ガウス型線形回帰モデルに対する最大対数尤度とは, 対数尤度関数にパラメータベクトル$\boldsymbol \beta$と誤差分散$\sigma^2$の最尤推定値式(ハット記号$\hat{}$を付けたもの)を代入した
$$l(\hat{\boldsymbol \beta}, {\hat{\sigma}}^2)= -\frac{n}{2}\log{2\pi\hat{\sigma}^2}-\frac{n}{2}$$
である.
自由パラメータの数については回帰係数の数が添え字$0$から$p$までとしたら$p+1$個、誤差分散の数で1個、計$p+2$個である.
よって先ほどの式に代入すると
$$AIC = -2 (l(\hat{\boldsymbol \beta}, {\hat{\sigma}}^2)- (p+2)) $$
$$=n\log{2\pi \hat{\sigma}^2}+ n + 2(p+2)$$
例
セメントの発熱量予測、など。
vol.5へ続く。