LoginSignup
0
2

29章 不完全データの統計処理

Last updated at Posted at 2024-01-14

欠損値の発生メカニズム

  • MCMR
    欠損がランダムに生じるパターン。統計量が完全データの性質と似通る傾向がある

  • MAR
    欠損が観測データに依存して生じるパターン

  • MNAR
    欠損が(本来得られていたはずの)欠損データの値に依存して生じるパターン

欠損値の扱い

  • CC(complete case)解析
    欠損値が生じている場合、欠損のないデータのみを使って解析をする方法
    使えるデータ数がかなり少なくなってしまうケースが多いが、欠損データが少ない場合はこちらを推奨
    MCMRはこちらを推奨

  • AC(available case)解析
    欠損値が生じているデータも使えるデータはすべて使う方法
    MARの場合はこちらを推奨

    • 平均値代入
    • 回帰代入
    • Hot Deck法
      類似のデータを探してきて代入

正規分布による推測(一変量正規分布)

MCMRの場合は、観測データのランダムネスが保たれるためそのまま観測データのみを使って問題はない
MNARの場合は欠損の理由を加味した分析が必要
c以下のデータのみが得られた場合、cを超えたデータ数が判明している場合は打ち切り、判明していない場合はトランケート

例1

(29.2)式に当てはめて計算
m=8の平均値は370/8 = 46.25
$ \Phi(a^0) = \Phi((60-46.25)/10) = \Phi(1.375) = 0.916 $
$ \varphi(a^0) = \frac{\exp(-1.375^2)}{\sqrt2\pi} = 0.155 $

$ \mu^1= \frac{1}{10}(370 + 2*(46.25 + \frac{0.155}{1-0.916}*10))=49.64$

...

$ \mu^3 = 50.05 $
...
$ \mu^6 = 48.65 $

正規分布における推測(2変量正規分布)

  • MCMRのときは、削除法を使用して観測データの標本平均を$\mu_Y$の推定値とするか、回帰直線を使用して推定する。回帰直線を使用した方法では、標準偏差が低く、相関係数が高いyを推定してしまうデメリットがある。
  • MARの場合は、回帰直線を使用する方法で$\mu_Y$を推定する。

例2

回答のとおり

#EMアルゴリズム
https://ocw.u-tokyo.ac.jp/lecture_files/engin_01/4/notes/ja/D4-GaussianMixture.pdf

例題

(1)
テスト1の結果をX、テスト2の結果をYとする二変量の問題とみる。
Xの点数が一定以上のものは、テスト2の結果が結束しているとしてみることができるため、欠測メカニズムはMARである。
MARの性質として、平均値を過小評価、相関係数を過小評価する傾向にあるため、答えは5(p177 図29.1参照)

(2)
回帰直線を使用してテスト2が免除された人たちのYの値を予測している。p284の記載のとおり、平均値は偏りなく推定できるが、相関係数が高く出てしまう。答えは2

0
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
2