はじめに
離散的な形質に対応したメンデルの遺伝学を連続的な変化をする形質に拡張した学問を量的遺伝学といい、統計学の父FisherやHoldern、Wrightらによってその基礎が築かれました。特に「観察される形質のうちどれくらいが遺伝的に支配されているか」、「その形質はどれくらい後代に遺伝するのか」といった事柄を明らかにするのが、この学問における大きなテーマです。遺伝的能力を推定するうえで障壁となるのが「動物などでは個体の反復を作ることができない」という現実です。そこでHendersonらによって開発されたのが、混合モデルを使った手法で、BLUP法と呼ばれています。このBLUP法は、背景に仮定する分散共分散行列によっていくつかの種類が存在します。有名なのが血縁情報を使ったABLUPとゲノム情報を使ったGBLUPです。
ABLUPにおいて仮定する分散共分散行列は相加的血縁行列(Additive Relatinship Matrix)と呼ばれ、頭文字のAを取ってA行列と呼ばれます。このA行列は系譜情報さえあれば計算できるのですが、なぜそのように計算できるのか、についての説明はあまり多くありませんでした(あるものはあるのですが非常に分厚く読む気にならない)。そこで、今回はそのA行列の導出を分かりやすくまとめてみようと思います。
A行列の成分について
まずはじめにA行列がどのような成分からなるかをまとめます。基本的に、A行列は次のように定義される量になります。
A_{ij}=2\theta_{ij}
ここで$\theta_{ij}$は血縁係数(Coefficient of Coancestry)と呼ばれる係数で、個体iと個体jから無作為に一本づつ遺伝子(アリル)を取り出した時にそれが同祖的(Identity by Descent: IBD)である確率を指します。ここで$i=j$の時は、近交係数(Inbreeding Coefficient: $f_i$)を用いて書き換えることができ、$2\theta_{ij}=1+f_i$より以下のようになります。
A_{ii}=1+f_i
2つ目の式は対角成分をある関係性を用いて書き換えただけなので本質的には一つ目の式が全てです。以下ではこれを導出していこうと思います。
基本的モデル
さて、量的遺伝学では一番最初に習う基本的なモデルがあります。それが次のように定義される式で、$Y$は観察される値(表現型)、$G$は遺伝的能力、$E$は誤差を表します(添え字iは個体番号を示します)。
Y_i=G_i+E_i
$G$は相加的に表すことができる量$A$(相加効果)と非相加的にしか表せない量$D$(優性偏差)に分割することができ、結果的に次の式が得られます。
Y_i=A_i+D_i+E_i
先に答えを言ってしまうと、A行列の分散共分散行列求めるには、ここで定義される相加効果$A_i$の共分散$Cov(A_i,A_j)$を求めればよいだけなのですが、次の投稿内容につなげるため、ここではいったん表現型の相関$Cov(Y_i,Y_j)$を考えます。
Cov(Y_i,Y_j)=Cov(A_i,A_j)+Cov(D_i,D_j)+Cov(E_i,E_j)
基本的に誤差は独立同時分布に従い、共分散行列を持たないと考えられるので$0$となり、次の項のみがのこります。
Cov(Y_i,Y_j)=Cov(A_i,A_j)+Cov(D_i,D_j)
ではここから$Cov(A_i,A_j),Cov(D_i,D_j)$が何になるかを考えていきます。
染色体ごとの効果
多くの動植物は染色体を2つ持っていますから、個体レベルで決まってくる遺伝的能力も、各染色体ごとの能力に分割することができるはずです。実際にできるかというと、個体の遺伝的能力は各染色体の能力とその両者の交互作用によって決まってくるため、染色体ごとに分割するとそのおつり(交互作用項)が出てきてしまいます。実はそのおつりが優性偏差$D_i$の正体です。そして各染色体ごとに分割できる部分を相加効果$A_i$と呼んでいるのです。従って、$A_i$の方は父由来の染色体の効果$\alpha_{is}$と母由来の染色体の効果$\alpha_{id}$に分けることができます。
A_i=\alpha_{is}+\alpha_{id}
なお、この$\alpha_i$については$A_i$の分散を$V_A$とすると$V_g=Var(A_i)=Var(\alpha_{is}+\alpha_{id})=2V_{\alpha}$なので、$V_{\alpha}=1/2V_A$という関係性が成り立ちます。
さて、先ほど出てきた共分散$Cov(A_i,A_j)$はこの染色体ごとの効果を用いると次のように書き下すことができます。
Cov(A_i,A_j)=Cov(\alpha_{is}+\alpha_{id},\alpha_{js}+\alpha_{jd})
ここで右辺を分解すると$Cov(\alpha_{is},\alpha_{js})$のような項が4つほど出てきますが、ここで考えるのが先ほど定義した血縁係数です。$\alpha_{is}$と$\alpha_{js}$は異なる効果に見えますが、血縁係数$\theta_{ij}$の確率で一致します。そして一致すると$Cov(\alpha_{is},\alpha_{js}=\alpha_{is})=Var(\alpha_{is})=V_{\alpha}$となり、共分散が具体的に求まるというわけです。一致する確率は$\theta_{ij}$なので、
Cov(A_i,A_j)=Cov(\alpha_{is}+\alpha_{id},\alpha_{js}+\alpha_{jd})=4\theta_{ij}V_{\alpha}
さらに$V_{\alpha}=1/2V_A$の関係性を代入すれば目的の式が求まります。
Cov(A_i,A_j)=4\theta_{ij}V_{\alpha}=2\theta_{ij}V_A
このV_Aはどんな$i,j$にも共通しているため、本質的に分散共分散構造を決めているのは$2\theta_{ij}$であり、それを取ってきたのがA行列というわけです。
優性偏差の共分散
さて、相加効果の共分散はこれで良いとして、優性偏差の共分散もせっかくなので考えてみます(実はこっちの方が個人的にはメインです)。
先ほど述べたように、優性偏差は染色体の交互作用にあたる部分ですので染色体ごとに分けて考えることはできません。従って$Cov(D_i,D_j)$より先にはもう進めないのですが、ここで新しい係数を導入します。それがCoancestry of Fraternityと呼ばれる係数です。これは私が定義したものとかではなく、ちゃんと英語で書かれた本には載っている係数なのですが、あまり日本語訳されているところを見たことがなく、日本語訳が分かりません。記号としては$\Delta_{ij}$などが使われ、個体$i$と個体$j$からそれぞれ2つずづ染色体を取ってきたとき、そのペアが同祖的である確率を示します。つまり$D_i$と$D_j$が同じになる確率を表しているわけです。従って、$Var(D_i)=V_D$とすると以下が得られます。
Cov(D_i,D_j)=\Delta_{ij}Cov(D_i,D_j=D_i)=\Delta_{ij}Var(D_i)=\Delta_{ij}V_D
若干無理やり感を感じなくもないですが、この$\Delta_{ij}$も系譜情報されあえばちゃんと求めることができるようになっています。
まとめ
今回は$Y_i=A_i+D_i+E_i$という基本モデルからA行列の導出を試みました。A行列の話も大切なのですが、一番最初に提示した$Cov(Y_i,Y_j)$自体も非常に重要で、これまでの結果をまとめると次のように書き表すことができます。
Cov(Y_i,Y_j)=2\theta_{ij}V_A+\Delta_{ij}V_D
ここに具体的な系譜関係($i$と$j$は兄弟、など)を当てはめていくことによって、$\theta_{ij}$と$\Delta_{ij}$が決まり、個体間の類似性を知ることができるようになる、というわけです。