More than 1 year has passed since last update.

29章不完全データの統計処理

#統計学実践ワークブック

Last updated at 2024-02-06Posted at 2024-01-14

欠損値の発生メカニズム

MCMR
欠損がランダムに生じるパターン。統計量が完全データの性質と似通る傾向がある
MAR
欠損が観測データに依存して生じるパターン
MNAR
欠損が（本来得られていたはずの）欠損データの値に依存して生じるパターン

欠損値の扱い

CC（complete case）解析
欠損値が生じている場合、欠損のないデータのみを使って解析をする方法
使えるデータ数がかなり少なくなってしまうケースが多いが、欠損データが少ない場合はこちらを推奨
MCMRはこちらを推奨
AC（available case）解析
欠損値が生じているデータも使えるデータはすべて使う方法
MARの場合はこちらを推奨
- 平均値代入
- 回帰代入
- Hot Deck法
  類似のデータを探してきて代入

正規分布による推測（一変量正規分布）

MCMRの場合は、観測データのランダムネスが保たれるためそのまま観測データのみを使って問題はない
MNARの場合は欠損の理由を加味した分析が必要
c以下のデータのみが得られた場合、cを超えたデータ数が判明している場合は打ち切り、判明していない場合はトランケート

切断正規分布
https://bellcurve.jp/statistics/blog/18075.html
https://ja.wikipedia.org/wiki/%E5%88%87%E6%96%AD%E6%AD%A3%E8%A6%8F%E5%88%86%E5%B8%83

例1

(29.2)式に当てはめて計算
m=8の平均値は370/8 = 46.25
$ \Phi(a^0) = \Phi((60-46.25)/10) = \Phi(1.375) = 0.916 $
$ \varphi(a^0) = \frac{\exp(-1.375^2)}{\sqrt2\pi} = 0.155 $

$ \mu^1= \frac{1}{10}(370 + 2*(46.25 + \frac{0.155}{1-0.916}*10))=49.64$

...

$ \mu^3 = 50.05 $
...
$ \mu^6 = 48.65 $

正規分布における推測（2変量正規分布）

MCMRのときは、削除法を使用して観測データの標本平均を$\mu_Y$の推定値とするか、回帰直線を使用して推定する。回帰直線を使用した方法では、標準偏差が低く、相関係数が高いyを推定してしまうデメリットがある。
MARの場合は、回帰直線を使用する方法で$\mu_Y$を推定する。

例2

回答のとおり

#EMアルゴリズム
https://ocw.u-tokyo.ac.jp/lecture_files/engin_01/4/notes/ja/D4-GaussianMixture.pdf

例題

(1)
テスト1の結果をX、テスト2の結果をYとする二変量の問題とみる。
Xの点数が一定以上のものは、テスト2の結果が結束しているとしてみることができるため、欠測メカニズムはMARである。
MARの性質として、平均値を過小評価、相関係数を過小評価する傾向にあるため、答えは5（p177 図29.1参照）

(2)
回帰直線を使用してテスト2が免除された人たちのYの値を予測している。p284の記載のとおり、平均値は偏りなく推定できるが、相関係数が高く出てしまう。答えは２

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

29章 不完全データの統計処理

欠損値の発生メカニズム

欠損値の扱い

正規分布による推測（一変量正規分布）

例1

正規分布における推測（2変量正規分布）

例2

例題

29章不完全データの統計処理