LoginSignup
0
0

「平均への回帰」を具体例で確認(統計検定1級)

Posted at

こんにちは!Ariaです。

「平均への回帰」と呼ばれる統計学上の現象を解説します。

注目している対象(ここでは人とします)$i$に対して、同様の検査を時間をおいて2回実施する場合ときなど、1回目と2回目の測定値の差分の意味に注目したい時があります。
ここでは、母集団の分布が既知のケースで考えます。

(とくに、1回目に極端な値が計測されたと考えられる場合、2回目とのギャップが偶然誤差なのか「平均への回帰」という現象によるものなのか見極めたい時があります)

結論

注目している個人$i$が属していると想定される母集団の分布から、条件付き分布を導出し、条件付き期待値と2回目の実現値の差を確認することで、1回目と2回目の差が誤差(偶然の変動によるもの)なのか、想定しているエフェクトの大きさによる変化(例えば、観測対象の人が2回目の測定までに実施した食事療法の効果)なのかを捉えることができます。

例題

タケシさんは血圧の検査を2度受けました。タケシさんは最初の検査で血圧が125mmHgでした。血圧を下げるよう医者にアドバイスされたため、タケシさんなりに血と涙の努力をし、2回目の検査では120mmHgとなりました。
さて、タケシさんは血圧が5mmHg下がったことをよろこんでいいのでしょうか?

なお、
1回目の検査値をX、2回目をYとし、$(X, Y)$は母集団で二変量正規分布$N(\mu_X, \mu_Y, \sigma_X, \sigma_Y, \sigma_{XY})$に従うと仮定します。

タケシさんが属する母集団において、2回目の測定では、母平均は$\mu_X = \mu_Y=$ 115, 母標準偏差は$\sigma_X=\sigma_Y=$ 10 であり、XとYの母相関係数$\rho_{XY}$ は $0.8$ とします。

問1

母集団全体における2回の血圧の測定値の差$D=Y-X$の期待値と分散はいくらか。また、母集団全体で確率$P(D\le-5)$はいくらか。

問1 (解答例)

一般に、差$ D = Y - X $の期待値と分散は
$$E[D]=E[Y-X]=E[Y]-E[X]$$
および
$$V[D]=V[Y-X]=V[Y]+V[X]+2 \mathrm{Cov}[X, Y]$$
であるので、数値を代入して
$$E[D]=115 - 115 = 0$$

$$V[D]=10^2+10^2-2 \times 10 \times 10 \times 0.8=40$$
となる。よって、ZをN(0, 1)に従う確率変数として、求める確率は
$$P(D\le-5)=P(\frac{D-0}{\sqrt{40}}\le\frac{-5-0}{\sqrt{40}})=P(Z\le-\frac{1}{4\sqrt{5}})$$
$$\approx P(Z\le-0.11)\approx0.46$$
となる。

問2

1回目の測定値Xが125の人の2回目の測定値Yの条件付き期待値$E[Y|X=125]$と条件付き分散$V[Y|X=125]$はそれぞれいくらか。タケシさんの2回目の測定値が5mmHg下がった内、「平均への回帰」と見なせる分はいくらか?

問2(解)

$X=x$が与えられた時のYの条件付き分布の関係式1より、
分布は$N(\alpha+\beta x,\ \sigma^2)$であり、
$$\beta=\sigma_{XY}/\sigma_X^2,\ \ \alpha=\mu_Y-\beta\mu_X, \ \ \sigma^2=\sigma_Y^2-\sigma_{XY}^2/\sigma_X^2$$
となる。それぞれに各数値を代入する。

$$\beta = 80/10^2=0.8, \ \ \alpha=115-0.8\times115=23,\ \ \sigma^2=10^2-80^2/10^2=36$$
となる。よって、X=120のときのYの条件付き期待値及び条件付き分散はそれぞれ
$$E[E|X=125]=23+0.8\times 125=123,\ \ V[Y|X=125]=36$$
となり、条件付き分布は$N(123, 36)となる。ここで条件付き分散はXの値によらないことに注意。

1回目の測定値が$X=125$のときの2回目の測定値Yの条件付き期待値$E[Y|X=125]=123$は、母集団全体での2回目の測定値の全平均115よりも大きいものの、その全平均との差123-115=8は1回目の測定値X=125の全平均との差125-115=10よりも小さい。2回目の測定値の条件付き期待値は全平均の値に近づくことから、これを平均への回帰という(regression to the mean)。
Aさんの場合、2回目の測定値は120であり、血圧は5下がったが、X=125の人たちの2回目の測定値の条件付き期待値は123なので、Aさんの下降分の5のうち平均への回帰分は2とみなされ、Aさんの努力によるところ(または偶然の変動)は3となる。

おまけ

(ちなみにWikipediaによると、ここの「回帰」という表現が回帰分析の語源になったらしいです。意味は全然違いますが)
https://ja.wikipedia.org/wiki/%E5%B9%B3%E5%9D%87%E3%81%B8%E3%81%AE%E5%9B%9E%E5%B8%B0

お読みいただきありがとうございました!
永遠に勉強中のみなので、誤りを発見した場合などご指摘いった抱けると幸いです。

ではまた。

  1. 条件付き分布の関係式の導出はこちらを参照。(すみません工事中(死語)です)

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0