はじめに
本投稿は、佐々木義之さんの「変量効果の推定とBLUP法」の第1章(p19-20)で解説されている、最良予測量(BP)が条件付平均値であることの証明(Henderson, 1973)について、その計算をより詳しく記述したものになります。より数学的には、バイアスバリアンス分解と呼ばれる操作の帰結として導かれるものですので、より詳しく学びたい方は「パターン認識と機械学習 上」の第3章などをご覧ください。
なお本投稿は、線形混合効果モデルをすでに学習された方を対象としていますので、特に変量効果などの説明は行いません。ご了承ください。
目次
背景と証明内容
まず、変量効果推定の背景と証明内容の確認します。
家畜や作物の品種改良において、変量効果は遺伝的効果に相当します。同効果は優秀な個体を選抜する指標として極めて重要ですが、直接観察することができないため、観察された値をもとに推定する必要があります。つまり、観察値を$\mathbf{y}$、変量効果を$\mathbf{g}$とすると、$\mathbf{y}$をもとに$\mathbf{g}$を推定する必要があるというわけです。
さて、その推定には様々な方法があり、推定方法ごとに異なるの推定値が得られます。本書における証明は、推定された変量効果$\mathbf{\hat{g}}$と真の変量効果$\mathbf{g}$との平均平方誤差$(\mathbf{g}-\mathbf{\hat{g}})^2$を最小にするような推定において、その推定値$\mathbf{\hat{g}}$が、観察値を与えたときの条件付平均、すなわち$E(\mathbf{g}|\mathbf{y})$になることを主張するものです。
なお、変量効果の推定値は、固定効果の推定値と異なり、予測量と呼ばれます。また、平均平方誤差を最小にする推定値は「最良である」という表現されます。したがって、このように推定された推定値は最良予測量(Best Predictor)と呼ばれます。これらの言葉を使って言い直すと、本書における証明は、最良予測量が条件付平均値になることの証明となります。
証明
さて、ここからは「最良予測量が条件付平均値になること」を証明していきます。簡単のためここではベクトル$\mathbf{g}$のうち、ある要素$g_i$に着目して推定することとします。
スタートポイントは本書と同じく、平均平方誤差の期待値$E(g_i-\hat{g}_i)^2$です。混乱を防ぐため、ここでは$E[(g_i-\hat{g}_i)^2]$と表記することにします。本書に明記はされていませんが、同期待値は正確には以下のように定義されています。
$$E[(g_i-\hat{g}_i)^2]=\int\int (g_i-\hat{g}_i)^2p(g_i, \mathbf{y})dg_id\mathbf{y}$$
さて、これを変形すると次が得られます。
$$E[(g_i-\hat{g}_i)^2]=E[(g_i-E(g_i|\mathbf{y})+E(g_i|\mathbf{y})-\hat{g}_i)^2]$$
ここで、$E(g_i|\mathbf{y})$は、本書において明記されていませんが以下のように定義される値です。
$$E(g_i|\mathbf{y})=\int g_i p(g_i|\mathbf{y})dg_i$$
さらに変形を重ねると、次の式が得られます。
$$E[(g_i-\hat{g}_i)^2]=E[(g_i-E(g_i|\mathbf{y}))^2]+E[(E(g_i|\mathbf{y})-\hat{g}_i)^2]+2E[(g_i-E(g_i|\mathbf{y}))(E(g_i|\mathbf{y})-\hat{g}_i)]$$
ここまでは本書に書いてある内容とほぼ同じで、多くの方が問題なく理解できているのではないでしょうか。さて、本書には続いて次のような一文が書かれています。
\begin{align}
条件付き期待値の定義から第三項は\\
2E[(g_i-E(g_i|\mathbf{y}))(E(g_i|\mathbf{y})-\hat{g}_i)]=0
\end{align}
この変形については、本書にこれ以上の説明がないのですが、一文で済ませられるほど単純なものではありませんので、以下では第3項に注目し、同項が0になることを導出します。
まずこの期待値をしっかりと定義通り書き下すと以下の式が得られます。
$$
2E[(g_i-E(g_i|\mathbf{y}))(E(g_i|\mathbf{y})-\hat{g}_i)]=\int\int 2(g_i-E(g_i|\mathbf{y}))(E(g_i|\mathbf{y})-\hat{g}_i)p(g_i,\mathbf{y})dg_id\mathbf{y}
$$
ここで$g_i$に着目すると、被積分関数の中で$g_i$が出てくるのは$(g_i-E(g_i|\mathbf{y}))$の$g_i$だけですので、次のように変形することができます。
$$
2E[(g_i-E(g_i|\mathbf{y}))(E(g_i|\mathbf{y})-\hat{g}_i)]=2\int(E(g_i|\mathbf{y})-\hat{g}_i)\Biggl[\int (g_i-E(g_i|\mathbf{y}))p(g_i,\mathbf{y})dg_i\Biggr]d\mathbf{y}
$$
ここでカギカッコ$[]$の中身に着目します。条件付き確率の定義より次のような変形が可能です。
\begin{align}
\int (g_i-E(g_i|\mathbf{y}))p(g_i,\mathbf{y})dg_i&=\int (g_i-E(g_i|\mathbf{y}))p(g_i|\mathbf{y})p(\mathbf{y})dg_i\\&=p(\mathbf{y})\int (g_i-E(g_i|\mathbf{y}))p(g_i|\mathbf{y})dg_i\\&=p(\mathbf{y})\int g_ip(g_i|\mathbf{y})dg_i-p(\mathbf{y})\int E(g_i|\mathbf{y}))p(g_i|\mathbf{y})dg_i\\&=p(\mathbf{y})\int g_ip(g_i|\mathbf{y})dg_i-p(\mathbf{y})E(g_i|\mathbf{y}))\int p(g_i|\mathbf{y})dg_i\\&=p(\mathbf{y})\int g_ip(g_i|\mathbf{y})dg_i-p(\mathbf{y})E(g_i|\mathbf{y})
\end{align}
ところが最終変形した式の第1項は条件付き期待値$E(g_i|\mathbf{y})$の定義そのものですので、第1項と第2項が打消しあって、カギカッコ$[]$の中身は0になります。被積分関数0の積分は0ですので、その結果、$2E[(g_i-E(g_i|\mathbf{y}))(E(g_i|\mathbf{y})-\hat{g}_i)]=0$が導かれます。
第3項が打ち消された結果、平均平方誤差の期待値は次の2項に分解されることが分かります。実はこの分解こそ、最初に少し伏線を張ったバイアスバリアンス分解に相当します。
$$E[(g_i-\hat{g}_i)^2]=E[(g_i-E(g_i|\mathbf{y}))^2]+E[(E(g_i|\mathbf{y})-\hat{g}_i)^2]$$
最良予測量という文脈では、左辺を最小化する推定値が"最良"であるわけですが、そのためには右辺第2項が$0$でなければなりません。ここで、$g_i$が以下を満たせば、それが成り立つことがわかります。
$$\hat{g}_i=E(g_i|\mathbf{y})$$
この事実をもって、「最良予測量は条件付き期待値である」という主張が認められたことになります。