こんにちは!Ariaです。
「平均への回帰」と呼ばれる統計学上の現象を解説します。
注目している対象(ここでは人とします)$i$に対して、同様の検査を時間をおいて2回実施する場合ときなど、1回目と2回目の測定値の差分の意味に注目したい時があります。
ここでは、母集団の分布が既知のケースで考えます。
(とくに、1回目に極端な値が計測されたと考えられる場合、2回目とのギャップが偶然誤差なのか「平均への回帰」という現象によるものなのか見極めたい時があります)
結論
注目している個人$i$が属していると想定される母集団の分布から、条件付き分布を導出し、条件付き期待値と2回目の実現値の差を確認することで、1回目と2回目の差が誤差(偶然の変動によるもの)なのか、想定しているエフェクトの大きさによる変化(例えば、観測対象の人が2回目の測定までに実施した食事療法の効果)なのかを捉えることができます。
例題
タケシさんは血圧の検査を2度受けました。タケシさんは最初の検査で血圧が125mmHgでした。血圧を下げるよう医者にアドバイスされたため、タケシさんなりに血と涙の努力をし、2回目の検査では120mmHgとなりました。
さて、タケシさんは血圧が5mmHg下がったことをよろこんでいいのでしょうか?
なお、
1回目の検査値をX、2回目をYとし、$(X, Y)$は母集団で二変量正規分布$N(\mu_X, \mu_Y, \sigma_X, \sigma_Y, \sigma_{XY})$に従うと仮定します。
タケシさんが属する母集団において、2回目の測定では、母平均は$\mu_X = \mu_Y=$ 115, 母標準偏差は$\sigma_X=\sigma_Y=$ 10 であり、XとYの母相関係数$\rho_{XY}$ は $0.8$ とします。
問1
母集団全体における2回の血圧の測定値の差$D=Y-X$の期待値と分散はいくらか。また、母集団全体で確率$P(D\le-5)$はいくらか。
問1 (解答例)
一般に、差$ D = Y - X $の期待値と分散は
$$E[D]=E[Y-X]=E[Y]-E[X]$$
および
$$V[D]=V[Y-X]=V[Y]+V[X]+2 \mathrm{Cov}[X, Y]$$
であるので、数値を代入して
$$E[D]=115 - 115 = 0$$
$$V[D]=10^2+10^2-2 \times 10 \times 10 \times 0.8=40$$
となる。よって、ZをN(0, 1)に従う確率変数として、求める確率は
$$P(D\le-5)=P(\frac{D-0}{\sqrt{40}}\le\frac{-5-0}{\sqrt{40}})=P(Z\le-\frac{1}{4\sqrt{5}})$$
$$\approx P(Z\le-0.11)\approx0.46$$
となる。
問2
1回目の測定値Xが125の人の2回目の測定値Yの条件付き期待値$E[Y|X=125]$と条件付き分散$V[Y|X=125]$はそれぞれいくらか。タケシさんの2回目の測定値が5mmHg下がった内、「平均への回帰」と見なせる分はいくらか?
問2(解)
$X=x$が与えられた時のYの条件付き分布の関係式1より、
分布は$N(\alpha+\beta x,\ \sigma^2)$であり、
$$\beta=\sigma_{XY}/\sigma_X^2,\ \ \alpha=\mu_Y-\beta\mu_X, \ \ \sigma^2=\sigma_Y^2-\sigma_{XY}^2/\sigma_X^2$$
となる。それぞれに各数値を代入する。
$$\beta = 80/10^2=0.8, \ \ \alpha=115-0.8\times115=23,\ \ \sigma^2=10^2-80^2/10^2=36$$
となる。よって、X=120のときのYの条件付き期待値及び条件付き分散はそれぞれ
$$E[E|X=125]=23+0.8\times 125=123,\ \ V[Y|X=125]=36$$
となり、条件付き分布は$N(123, 36)となる。ここで条件付き分散はXの値によらないことに注意。
1回目の測定値が$X=125$のときの2回目の測定値Yの条件付き期待値$E[Y|X=125]=123$は、母集団全体での2回目の測定値の全平均115よりも大きいものの、その全平均との差123-115=8は1回目の測定値X=125の全平均との差125-115=10よりも小さい。2回目の測定値の条件付き期待値は全平均の値に近づくことから、これを平均への回帰という(regression to the mean)。
Aさんの場合、2回目の測定値は120であり、血圧は5下がったが、X=125の人たちの2回目の測定値の条件付き期待値は123なので、Aさんの下降分の5のうち平均への回帰分は2とみなされ、Aさんの努力によるところ(または偶然の変動)は3となる。
おまけ
(ちなみにWikipediaによると、ここの「回帰」という表現が回帰分析の語源になったらしいです。意味は全然違いますが)
https://ja.wikipedia.org/wiki/%E5%B9%B3%E5%9D%87%E3%81%B8%E3%81%AE%E5%9B%9E%E5%B8%B0
お読みいただきありがとうございました!
永遠に勉強中のみなので、誤りを発見した場合などご指摘いった抱けると幸いです。
ではまた。
-
条件付き分布の関係式の導出はこちらを参照。(すみません工事中(死語)です) ↩