欠損値の発生メカニズム
-
MCMR
欠損がランダムに生じるパターン。統計量が完全データの性質と似通る傾向がある -
MAR
欠損が観測データに依存して生じるパターン -
MNAR
欠損が(本来得られていたはずの)欠損データの値に依存して生じるパターン
欠損値の扱い
-
CC(complete case)解析
欠損値が生じている場合、欠損のないデータのみを使って解析をする方法
使えるデータ数がかなり少なくなってしまうケースが多いが、欠損データが少ない場合はこちらを推奨
MCMRはこちらを推奨 -
AC(available case)解析
欠損値が生じているデータも使えるデータはすべて使う方法
MARの場合はこちらを推奨- 平均値代入
- 回帰代入
- Hot Deck法
類似のデータを探してきて代入
正規分布による推測(一変量正規分布)
MCMRの場合は、観測データのランダムネスが保たれるためそのまま観測データのみを使って問題はない
MNARの場合は欠損の理由を加味した分析が必要
c以下のデータのみが得られた場合、cを超えたデータ数が判明している場合は打ち切り、判明していない場合はトランケート
- 切断正規分布
https://bellcurve.jp/statistics/blog/18075.html
https://ja.wikipedia.org/wiki/%E5%88%87%E6%96%AD%E6%AD%A3%E8%A6%8F%E5%88%86%E5%B8%83
例1
(29.2)式に当てはめて計算
m=8の平均値は370/8 = 46.25
$ \Phi(a^0) = \Phi((60-46.25)/10) = \Phi(1.375) = 0.916 $
$ \varphi(a^0) = \frac{\exp(-1.375^2)}{\sqrt2\pi} = 0.155 $
$ \mu^1= \frac{1}{10}(370 + 2*(46.25 + \frac{0.155}{1-0.916}*10))=49.64$
...
$ \mu^3 = 50.05 $
...
$ \mu^6 = 48.65 $
正規分布における推測(2変量正規分布)
- MCMRのときは、削除法を使用して観測データの標本平均を$\mu_Y$の推定値とするか、回帰直線を使用して推定する。回帰直線を使用した方法では、標準偏差が低く、相関係数が高いyを推定してしまうデメリットがある。
- MARの場合は、回帰直線を使用する方法で$\mu_Y$を推定する。
例2
回答のとおり
#EMアルゴリズム
https://ocw.u-tokyo.ac.jp/lecture_files/engin_01/4/notes/ja/D4-GaussianMixture.pdf
例題
(1)
テスト1の結果をX、テスト2の結果をYとする二変量の問題とみる。
Xの点数が一定以上のものは、テスト2の結果が結束しているとしてみることができるため、欠測メカニズムはMARである。
MARの性質として、平均値を過小評価、相関係数を過小評価する傾向にあるため、答えは5(p177 図29.1参照)
(2)
回帰直線を使用してテスト2が免除された人たちのYの値を予測している。p284の記載のとおり、平均値は偏りなく推定できるが、相関係数が高く出てしまう。答えは2