データ分析
統計学

『欠測データの統計科学』岩波出版 2章を読んでいて詰まったところ

Qiitaには初めて投稿します.kuro-beerです.

表記の本を絶賛学習中だが,2章の,わかっているはずのところで思いの外詰まってしまったので,自戒と記録のため執筆.

そもそもどんな本?

欠測データの統計科学

データの欠測にどう対処すればいいのかについて,理論方面を丁寧におさえつつ解説した専門書.『調査観察データの統計科学』の星野教授も執筆に関わっている.

なぜこの本を読んだ?

欠測データの処理は統計学・データサイエンスの他の分野に比べるといささか地味にも感じられるが,実際のデータを触っていると必ず遭遇する問題でもある.平均値代入や完全データ分析など,妥当性がきちんと評価されずに適用されている現場も少なくなさそうな領域であり,自信を持って妥当な方法を提案できるようになりたいと思い,読むことにした.ちなみに生物統計の実務家界隈(医薬品の臨床試験等のデータ分析)でもここ数年議論が活発な領域だったりする.

本題

問題

式変形が追えなかったʅ(‾◡◝)ʃ

結論

  • 数式の流し読みダメ,ゼッタイ
  • 先入観を捨てて読むべし

詳細(テキストの要約と躓いたポイントのみ.あしからず.)

2章は,最尤法を用いた欠測データ解析のために基礎的な知識を与える,というもの.はじめに変数を次のように定義する.$\boldsymbol{y}$は$J$変数の値を格納したベクトル,$\boldsymbol{r}$は対応する&y_j&が欠測でないときに1,欠測の時に0となるような$r_1$を格納したベクトルである.

\boldsymbol{y} = \begin{pmatrix}
y_1 \\
y_2 \\
\vdots \\
y_J 
\end{pmatrix}                
\qquad
\boldsymbol{r} = \begin{pmatrix}
r_1 \\
r_2 \\
\vdots \\
r_J 
\end{pmatrix}

なお,特定の変数に関して$n$サンプルのデータを考え,

\boldsymbol{y} = \begin{pmatrix}
y_1 \\
y_2 \\
\vdots \\
y_n 
\end{pmatrix}

とすることが多いが,ここでは特定の1サンプルが持つ$\boldsymbol{J}$変数について議論している点に注意する.

全体で$K(=2^J)$ある欠測パターンのうち,特定のパターン$k$の場合について,$\boldsymbol{y}$のうち欠測していないものを$\boldsymbol{y^{(k)}}$,欠測しているものを$\boldsymbol{y^{(-k)}}$とすると,$\boldsymbol{y}=(\boldsymbol{(y^{(k)})}^t, \boldsymbol{(y^{(-k)})}^t)^t$と表現できる.だたし,$y$が欠測しているもの,欠測していないものの順に整列されることは意味していない.

いま,確率密度関数を$f(\boldsymbol{y}, \boldsymbol{r} \,|\, \boldsymbol{\delta})$とすると($\boldsymbol{\delta}$はパラメータベクトル),完全尤度は次のように表せる.

\prod_{k=1}^{K}f(\boldsymbol{y}^{(k)}, \boldsymbol{r}^{(k)} \,|\, \boldsymbol{\delta})^{I^{(k)}}

ただし,ここで$I^{(k)}$は,特定の欠測パターン$k$に一致するときだけ1となり,他の場合は0となる変数である.これを$n$サンプルに拡張し,対数尤度を考えると,

\sum_{i=1}^{n}\sum_{k=1}^{K}log\,f(\boldsymbol{y}^{(k)}_i, \boldsymbol{r}^{(k)}_i \,|\, \boldsymbol{\delta})^{I^{(k)}}

となる.