概要/背景
1年に1回、何かしら聞かれて資料をあさるので、AICを使ったクロス集計の独立性検定の導出についてメモしておきます。Qiitaのマークダウン記法もやってみたかったのでお試しがてら。。。問題設定
2 x mのクロス集計表を考えます。例えば商品のCMの効果をアンケートでとって以下のように集計したとします。このCMに効果があったかどうか知りたいとします。とても買いたい | 買いたい | ・・・ | まったく買いたくない | 周辺度数 | |
---|---|---|---|---|---|
CM見た | $n_{11}$ | $n_{12}$ | ・・・ | $n_{1m}$ | $h$ |
CM見てない | $n_{21}$ | $n_{22}$ | ・・・ | $n_{2m}$ | $N-h$ |
周辺度数 | $k_{1}$ | $k_{2}$ | ・・・ | $N-k_1-k_2...$ | $N$ |
独立モデル(CMとアンケート結果に関係がない) vs 従属モデル(CMとアンケート結果に関係がある)を比べて、どっちが尤もらしいかを情報量基準によって判定します。
■独立モデル
CMとアンケートの回答に一切の関係がなかったと仮定した場合のモデルを考えます。各マスの確率を考えたいのですが、どう考えたら良いでしょうか?独立モデルを仮定すると、CM見る確率をp、各アンケートの回答確率をq1,q2…とすると、各マスは掛け算でpq1…のように書くことができます。
とても買いたい | 買いたい | ・・・ | まったく買いたくない | 周辺確率 | |
---|---|---|---|---|---|
CM見た | $pq_{1}$ | $pq_{2}$ | ・・・ | $pq_{m}$ | $p$ |
CM見てない | $(1-p)q_{1}$ | $(1-p)q_{2}$ | ・・・ | $(1-p)q_{m}$ | $1-p$ |
周辺確率 | $q_{1}$ | $q_{2}$ | ・・・ | $1-q_{1}-q_{2}...$ | $1$ |
ここで確率変数は、
$Pr(n_{11},n_{12},・・・n_{1m},n_{21},n_{22},・・・n_{2m})$
$=p^hq_1^{k_1}q_2^{k_2}・・・(1-q_1-q_2-・・・)(N-k_1-k_2-・・・)$
となるので、対数尤度は、
$LL=h∙log(p)+(N-h)∙log(1-p)+k_1∙log(q_1 )+k_2∙log(q_2 )+・・・+(N-k_1-k_2-・・・)∙log(1-q_1-q_2-・・・)$
これをp,q...で偏微分して0とおきます。
\frac{δLL}{δp}=\frac{δLL}{δq_1}=・・・=0\\
\frac{h}{p}-(\frac{N-h}{1-p})=0\\
\frac{k_1}{q_1} -(\frac{N-k_1-k_2-・・・}{1-q_1-q_2-・・・})=0\\
\frac{k_2}{q_2} -(\frac{N-k_1-k_2-・・・}{1-q_1-q_2-・・・})=0\\
となるので、
p=\frac{h}{N}
となる。また、
\frac{k_1}{q_1} =・・・=r=(\frac{N-k_1-k_2-・・・}{1-q_1-q_2-・・・})
とすると、
k_1=q_1∙r\\
k_2=q_2∙r
をそれぞれ足して、
k_1+k_2+・・・=r(q_1+q_2+・・・)=N
なので、r=Nとなるから、最大尤度は、
q_1=\frac{k_1}{N}\\
q_2=\frac{k_2}{N}\\
・・・
となる。これを使って最大対数尤度は、
MLL=h∙log(h/N)+(N-h)log(1-h/N)+k_1∙log(k_1/N)+・・・+(N-k_1-k_2-・・・)∙log(1-(k_1+k_2+・・・)/N)\\
=h∙log(h)+(N-h)∙log(N-h)+k_1∙log(k_1 )+・・・+(N-k_1-k_2-・・・)∙log(N-k_1-k_2-・・・)-2∙N∙log(N)
となる。パラメータの自由度は、1+m-1=mであり、これより、独立モデルに対する情報量基準は
$AIC(IM)=-2×MLL+2×(m)$
となる。
■従属モデル
次にCMとアンケートの回答に関連性があると仮定したときのモデルを考えます。この場合、各マスの確率は独立モデルのように書けないので、これらをp11,p12…のように書きます。
とても買いたい | 買いたい | ・・・ | まったく買いたくない | 周辺確率 | |
---|---|---|---|---|---|
CM見た | $p_{11}$ | $p_{12}$ | ・・・ | $p_{1m}$ | $p$ |
CM見てない | $p_{21}$ | $p_{22}$ | ・・・ | $p_{2m}$ | $1-p$ |
周辺確率 | $q_{1}$ | $q_{2}$ | ・・・ | $1-q_{1}-q_{2}...$ | $1$ |
確率変数は、
Pr(n_{11},n_{12},・・・n_{1m},n_{21},n_{22},・・・n_{2m})=\\
(\frac{n_{11}}{N})^{n_{11}}∙(\frac{n_{12}}{N})^{n_12}・・・(\frac{n_{2m}}{N})^{n_{2m}}=\\
{p_{11}}^{n_{11}}∙{p_{12}}^{n_{12}}・・・{p_{2m}}^{n_{2m}}
となる。ここで、
p_{2m}=1-(p_{11}+p_{12}+・・・)
なので、このモデルの自由度はm-1である。ここで対数尤度を計算すると、
LL=log({p_{11}}^{n_{11}}∙{p_12}^{n_{12}}・・・)=n_{11}∙log(p_{11})+n_{12}∙log(p_{12})・・・+n_{2m}∙log(p_{2m})
独立モデルと同じように、LLを偏微分して0とおくと、
$δLL/(δp_11 )=δLL/(δp_12 )=・・・=0$
より
\frac{δLL}{δp_{11}}=\frac{n_{11}}{p_{11}} -\frac{n_{2m}}{p_{2m}}=0
となる。同様にして
\frac{n_{12}}{p_{12}} -\frac{n_{2m}}{p_{2m}}=0
となる。ここで、
\frac{n_{2m}}{p_{2m}} =r
とすると、
n_{11}=p_{11}∙r\\
n_{12}=p_{12}∙r
・・・
となるので、それぞれを足すと、
$n_{11}+n_{12}+・・・=(p_{11}+p_{12}+・・・)r=r=N$
となるから、最尤推定は
p_{11}=\frac{n_{11}}{N},p_{12}=\frac{n_{12}}{N},・・・
となり、最大対数尤度は、
$MLL=n_{11}∙log(n_{11})+n_{12}∙log(n_{12})+・・・-N∙log(N)$
となる。
よって従属モデルに対する情報量基準は
$AIC(DM)=-2×MLL+2×(2m-1)$
となる。
■モデルの比較
独立モデルの情報量基準
$AIC(IM)=-2×MLL+2×(m)$
従属モデルの情報量基準
$AIC(DM)=-2×MLL+2×(2m-1)$
を比較し、小さい方のモデルを選択します。