はじめに
欠測メカニズムと欠測データ解析のモデルについてのメモ書き。
欠測メカニズム
データの欠測の生じ方は
- 記入漏れや無回答
- 打ち切りや切断
- 脱落や摩耗
- 数値の丸め込み
- 連続値の離散値化
などがある。これらの欠測が生じたメカニズムを、一般的に次の3通りに分けて考える。
1. 完全にランダムな欠測(MCAR: Missing Completely At Random)
欠測するかどうかはモデリングに用いる変数には依存しない。
欠測しているデータがある行を除去して分析しても偏りは発生しない。
2. ランダムな欠測(MAR: Missing At Random)
欠測するかどうかは、欠測値には依存せずに観測値に依存する
欠測しているデータがある行を除去して分析すると偏りは生じるが、多重代入法を用いることで偏りのない推定が可能。
3. ランダムでない欠測(NMAR: Not Missing At Random)
欠測するかどうかは欠測値そのものの値や観測していない他の変数にも依存する
偏りのない推定を行うには特殊なモデリングが必要。
欠測データの解析モデル
関心のある変数を$y$とする。
欠測データを解析するにあたって、次の2つ
- 完全データ(観測データと欠測データを合わせたデータ)のベクトル$\boldsymbol{y}$
- 欠損するかしないかを表す変数$m$のベクトル$\boldsymbol{m}$
の同時分布$p(\boldsymbol{y}, \boldsymbol{m})$を下記で紹介するモデルを仮定して考える。
1. 選択モデル(selection model)
同時分布$p(\boldsymbol{y}, \boldsymbol{m})$が「$\boldsymbol{y}$の周辺分布」と「$\boldsymbol{y}$を条件付けた欠測するかしないかを表す変数のベクトル$\boldsymbol{m}$」の積で表されるモデル。
p(\boldsymbol{y}, \boldsymbol{m}|\boldsymbol{\theta}, \boldsymbol{\phi}) = p(\boldsymbol{y}|\boldsymbol{\theta})p(\boldsymbol{m}|\boldsymbol{y}, \boldsymbol{\phi})
$\boldsymbol{\theta}$と$\boldsymbol{\phi}$はパラメータのベクトル。
2. パターン混合モデル(pattern mixture model)
同時分布$p(\boldsymbol{y}, \boldsymbol{m})$が「欠測を表す変数のベクトル$\boldsymbol{m}$で条件付けた$\boldsymbol{y}$の分布」と「欠測の比率」の積で表されるモデル。
p(\boldsymbol{y}, \boldsymbol{m}|\boldsymbol{\xi}, \boldsymbol{\omega}) = p(\boldsymbol{y}|\boldsymbol{m}, \boldsymbol{\xi})p(\boldsymbol{m}|\boldsymbol{\omega})
$\boldsymbol{\xi}$と$\boldsymbol{\omega}$はパラメータのベクトル。
3. 共有パラメータモデル(shared parameter model)
パターン混合モデルについて、対象ごとに値の異なる変量効果$\boldsymbol{\beta}$を与えたときに$\boldsymbol{y}$と$\boldsymbol{m}$が条件付き独立となるモデル。
p(\boldsymbol{y}, \boldsymbol{m}|\boldsymbol{\xi}, \boldsymbol{\omega}, \boldsymbol{\beta}) = p(\boldsymbol{y}|\boldsymbol{\beta}, \boldsymbol{\xi})p(\boldsymbol{m}|\boldsymbol{\beta}, \boldsymbol{\omega})
$\boldsymbol{\beta}$はパラメータのベクトル。
おわりに
最後まで読んでいただきありがとうございました。
zennにて「Python×データ分析」をメインテーマに記事を執筆しているので、ご一読いただけますと幸いです。
また、過去にLTや勉強会で発表した資料が下記リンクにてまとめてありますので、こちらもぜひご一読くださいませ。
参考文献
- 高橋(2022)「統計的因果推論の理論と実装」共立出版
- 星野(2009)「調査観察データの統計科学」岩波書店