はじめに
量的遺伝学に関する本は洋書、和書含め多くなってきている。一方、どの教科書も循環論法を繰り返している点があり、いったいどこがスターティングポイント(前提・仮定)なのかよくわからないというのが実情である。これは初学者にとっては由々しき事態である。
量的遺伝学において多大な貢献をした研究者の一人にHendersonがいる。彼が提唱した混合モデルによる育種価の推定は$A$行列と呼ばれる行列に依存しているが、この$A$行列は量的遺伝学においておかれている仮定を整理するうえで非常に役に立つ。
そこで今回は$A$行列の導出を参考に、量的遺伝学を公理化することを試みた。なお、この公理化はまだ不完全であり、例えばFalconerなどがまとめているアリル頻度を用いた定義との対応などはまだ進んでいない。この対応を考えることは$ABLUP$と$GBLUP$がどのように対応されるかということについて多くの示唆を与えると考えられるが、今回はいったんおいておくこととする。
なお、この記事は現在進行中で執筆を進めており、2026/05/31時点、「公理系に対する系」より後は構成と大まかな内容しかまとまっていない。また、これまでに書いた記事の内容を引っ張ってきているので記法がやや違うかもしれない。
公理系
公理1 配偶子の定義
各個体は二つの配偶子からなる。
それぞれ第一配偶子、第二配偶子と呼ぶ
第一第ニは遺伝様式によって特徴づけられる。
公理2 祖先集団と祖先配偶子の分布
すべての始まりと考えられえる集団を創始集団と呼び、各個体が持つ配偶子を祖先配偶子と定義する。祖先配偶子は、次に定義する性質に基づいて生成される。
E[g_{i}^{(k)}]=0
Var[g_{i}^{(k)}]=\sigma_g^2
Cov[g_{i}^{(k)},g_{j}^{(l)}]=0, \space (i\neq j)
公理3 配偶子の伝搬(遺伝法則)
第一配偶子は父方から、第二配偶子は母方から、ベルヌーイ分布に基づき伝搬される。
$i$番目の個体の父方の第一配偶子の実現値を$g_{s(i)}^{(1)}$、第二配偶子の実現値を$g_{s(i)}^{(2)}$とすると、$i$番目の個体の第一配偶子$g_i^{(1)}$は次のように伝搬される。
g_i^{(1)}=U_sg_{s(i)}^{(1)}+(1-U_s)g_{s(i)}^{(2)}
U_s\sim Bernoulli(1/2)
第二配偶子も同様に母方から次のように伝搬される。
g_i^{(2)}=U_dg_{d(i)}^{(1)}+(1-U_d)g_{d(i)}^{(2)}
U_d\sim Bernoulli(1/2)
公理4 配偶子間の交互作用(優性効果)
第一配偶子$g_i^{(1)}$、第二配偶子間$g_i^{(2)}$の交互作用として、優性効果$d_i^{(12)}$が次のように生じる。
d_i^{(12)}=\Delta(g_i^{(1)},g_i^{(2)})
第一、第二配偶子が確率変数である以上、優性効果も確率変数である。これは次のような性質を持つものとする。
E[d_i^{(12)}]=0
Var[d_i^{(12)}]=\sigma_d^2
Cov[g_i^{(1)},d_i^{(12)}]=Cov[g_i^{(2)},d_i^{(12)}]=0
(これらの定義は関数$\Delta$の任意性を減少させるために必要である)。
公理5 育種価
各配偶子の効果と優性効果の和を遺伝子型値$z_i$と呼ぶ。
z_i=g_{i}^{(1)}+g_{i}^{(2)}+d_i^{(12)}
また、配偶子効果の和を相加的遺伝的効果とよび、$a_i$と定義する。
a_i=g_{i}^{(1)}+g_{i}^{(2)}
これは親から伝搬する(遺伝する)部分を表しており、育種において重要な役割を果たす。
公理系に対する系
公理3に対する系 配偶子の分散
系譜上の任意の個体$i$について次が成り立つことを帰納法で証明する。
Var(g_i^{(1)}) = Var(g_i^{(2)}) = \sigma_g^2
なお、以下では、世代という単語を用いて証明を行う。これは「祖先集団から対象の個体までのパスのうち最大のものの数」である(図1)。
また対象の個体の世代を分かりやすくするため、$t$世代目の$i$番目の個体のうち、第一配偶子、第二配偶子をそれぞれ$g_i^{(1_t)}$、$g_i^{(2_t)}$と表すこととする。このとき命題は、次のように書き換えることができる。
命題
すべての世代$t$について以下が成り立つ
Var(g_i^{(1_{t})}) = Var(g_i^{(2_{t})}) = \sigma_g^2
祖先集団から生じた個体の配偶子の分散 (0から1世代)
祖先集団の世代を$0$としたとき、まず$n=1$である一世代目について命題が成り立つことを示す。
まず祖先集団から生じた個体$i$の配偶子は以下のように書き表すことができる。
g_i^{(1_1)}=U_sg_{s(i)}^{(1_0)}+(1-U_s)g_{s(i)}^{(2_0)}
ここで公理より、以下は認める
U_s\sim Bernoulli(1/2)
Var(g_{s(i)}^{(1_0)})=Var(g_{s(i)}^{(2_0)})=\sigma_g^2
さて、ここでは$U_s,g_{s(i)}^{(1_0)},g_{s(i)}^{(2_0)}$という3つの確率変数が混ざっている。これらを同時に考えることはやや困難であるので、分散に関する公式$Var(x)=Var(E(x|y))+E(Var(x|y))$を活用する。
両親の配偶子を条件づけて考えると、後代の配偶子の分散は次のように分解される。
Var(g_i^{(1_1)})=Var(E(g_i^{(1_1)}|g_{s(i)}^{(1_0)},g_{s(i)}^{(2_0)}))+E(Var(g_i^{(1_1)}|g_{s(i)}^{(1_0)},g_{s(i)}^{(2_0)}))
ベルヌーイ分布の性質を活用すると
E(g_i^{(1_1)}|g_{s(i)}^{(1_0)},g_{s(i)}^{(2_0)})=\frac{1}{2}g_{s(i)}^{(1_0)}+\frac{1}{2}g_{s(i)}^{(2_0)}
Var(g_i^{(1_1)}|g_{s(i)}^{(1_0)},g_{s(i)}^{(2_0)})=\frac{1}{4}\sigma_g^2+\frac{1}{4}\sigma_g^2=\frac{1}{2}\sigma_g^2
それぞれに期待値、分散をとると
Var(E(g_i^{(1_1)}|g_{s(i)}^{(1_0)},g_{s(i)}^{(2_0)}))=\frac{1}{4}\sigma_g^2+\frac{1}{4}\sigma_g^2=\frac{1}{2}\sigma_g^2
E(Var(g_i^{(1_1)}|g_{s(i)}^{(1_0)},g_{s(i)}^{(2_0)}))=\frac{1}{2}\sigma_g^2
よって、第一配偶子の分散については以下が成り立つ。
Var(g_i^{(1_1)})=\sigma_g^2
まったく同じ議論を行うことにより、第二配偶子について以下も成り立つ。
Var(g_i^{(2_1)})=\sigma_g^2
よって第一世代においては
Var(g_i^{(1_1)})=Var(g_i^{(2_1)})=\sigma_g^2
tから生じたt+1世代目の個体の配偶子の分散
次に$n\leqq t$を満たすすべての世代について命題が成り立つことを仮定し、$t+1$世代についても命題が成り立つことを示す。
まず$t+1$世代目の$i$番目の個体の第一配偶子は以下のように書くことができる。
g_i^{(1_{t+1})}=U_sg_{s(i)}^{(1_{l})}+(1-U_s)g_{s(i)}^{(2_{l})}
ここで$l$は$l\leqq t$を満たす自然数である。こうなる理由は以下の図を見るのが早い(図2)。
先ほどと同様、分散を条件付確率を用いて分解すると、
Var(E(g_i^{(1_{t+1})}|g_{s(i)}^{(1_{l})},g_{s(i)}^{(2_{l})}))=\frac{1}{4}\sigma_g^2+\frac{1}{4}\sigma_g^2=\frac{1}{2}\sigma_g^2
E(Var(g_i^{(1_{t+1})}|g_{s(i)}^{(1_{l})},g_{s(i)}^{(2_{l})}))=\frac{1}{2}\sigma_g^2
よって、
Var(g_i^{(1_{t+1})})=\sigma_g^2
第二配偶子についても同様の証明ができるため、
Var(g_i^{(1_{t+1})})=Var(g_i^{(2_{t+1})})=\sigma_g^2
よって帰納法よりすべての自然数$n$に対して命題が成り立つが示された。
公理5に対する系 祖先集団における相加的遺伝分散
祖先集団ではすべての配偶子は独立である。よって、相加的遺伝効果の分散(相加的遺伝分散)について以下が成り立つ。
Var(a_i)=Var(g_{i}^{(1)})+Var(g_{i}^{(2)})+2Cov(g_{i}^{(1)},g_{i}^{(2)})=2\sigma_g^2
量的遺伝学の多くの本では、配偶子分散$\sigma_g^2$ではなく、祖先集団における相加的遺伝分散を基準として考えることが多い。そこで以下ではこれを$V_A=2\sigma_g^2$と表記する。
定理系 (執筆中。大体の構成は以下の通り)
補題 血縁係数
一つの個体において、配偶子がIBDである確率
以下のように求められる
f_i = \sum_{l=1}^L \Big(\frac{1}{2}\Big)^{n_l+1}(1+f_l)
補題 近縁係数
二つの個体について、それぞれからランダムに取り出した二つの配偶子がIBDである確率。より正確には4通り生じる配偶子の組み合わせにおいて、各組み合わせがIBDである確率の期待値。
f_{ij}=\frac{1}{4}\Big(Pr[g_{s(i)}^{(1)}=g_{s(j)}^{(2)}]+Pr[g_{d(i)}^{(1)}=g_{d(j)}^{(2)}]+Pr[g_{s(i)}^{(1)}=g_{d(j)}^{(2)}]+Pr[g_{d(i)}^{(1)}=g_{s(j)}^{(2)}]\Big)
定義より直ちに以下が求まる。
f_{ij}=\frac{1}{2}(f_{s(i)j}+f_{d(i)j})
f_{ij}=\frac{1}{4}(f_{s(i)s(j)}+f_{s(i)d(j)}+f_{d(i)s(j)}+f_{d(i)d(j)})
具体的には以下のように求められる
f_{ij} = \sum_{l=1}^L \Big(\frac{1}{2}\Big)^{n_l+1}(1+f_l)
補題 血縁係数と近縁係数の関係性
近縁係数に関して、同一個体の近縁係数$f_{ii}$は近郊係数$f_i$を用いて次のように表すことができる。
f_{ii}=\frac{1}{2}(1+f_i)
$f_{ii}$は同一個体を二つ用意したとき、それぞれから任意に取り出しした配偶子の組み合わせがIBDになる確率であり、それは以下の図から明らかである。
なお、この関係性を使うと近郊係数と近縁係数を再帰的に求めることができるようになる。この方法をTabular法といい、アルゴリズムでよく使われている。
補題 Coancestry of Fraternity
あまり目にしないが、二つの個体に対して二つずつ配偶子を取り出したとき、それがIBDである確率のこと。優性効果の個体間類似度を考えるとき必要になる。
$AB$のセット、$CD$のセットがIBDであるためには、以下のどちらかが成り立ってればよい。
(A=C)\land(B=D)
(A=D)\land(B=C)
両者は背反なので、以下が成り立つ。
\Delta_{ij}=f_{s(i)s(j)}f_{d(i)d(j)}+f_{s(i)d(j)}f_{d(i)s(j)}
遺伝子型の分散共分散
次の結論をここで導く。
Cov(Y_i,Y_j)=2\theta_{ij}V_A+\Delta_{ij}V_D
なお、要素に$2\theta_{ij}$を持つ行列は相加的分散共分散行列と呼ばれる。
例題 母-子、父-子
$\theta_{ij}=\frac{1}{2}$であるので、親子間の類似度は$V_A$となる。
例題 全兄弟
\Delta_{ij}=f_{s(i)s(j)}f_{d(i)d(j)}+f_{s(i)d(j)}f_{d(i)s(j)}
全兄弟において、$s(i)=s(j),f(i)=f(j)$であるため、それぞれ$s,d$とすると
\Delta_{ij}=f_{ss}f_{dd}+f_{sd}^2
親の近縁係数を$\frac{1}{2}$とし、両親の血縁関係はないものとすると$f_{sd}=0$。したがって
\Delta_{ij}=\frac{1}{4}
例題 半兄弟
母方が同じであると仮定する
\Delta_{ij}=f_{s(i)s(j)}f_{dd}+f_{s(i)d}f_{ds(j)}
この時、両親が独立している場合$f_{dd}+f_{s(i)d}=f_{ds(j)}=f_{s(i)s(j)}=0$
よって
\Delta_{ij}=0
定理 家系内分散と家系間分散
家系内分散
E(Var(a_i|g_s(i)^{(1)},g_s(i)^{(2)},g_d(j)^{(1)},g_d(j))^{(2)})
a_i|parents=U_sg_{s(i)}^{(1)}+(1-U_s)g_{s(i)}^{(2)}+U_dg_{d(i)}^{(1)}+(1-U_d)g_{d(i)}^{(2)}
整理すると
a_i|parents=g_{s(i)}^{(2)}+g_{d(i)}^{(2)} + U_s(g_{s(i)}^{(1)}-g_{s(i)}^{(2)})+U_d(g_{d(i)}^{(1)}-g_{d(i)}^{(2)})
分散を計算すると
Var(a_i|parents)=\frac{1}{4}(g_{s(i)}^{(1)}-g_{s(i)}^{(2)})^2+\frac{1}{4}(g_{d(i)}^{(1)}-g_{d(i)}^{(2)})^2
ここで$U_s,U_d$が互いに独立であることを利用した。
展開して少し別の形でまとめると
Var(a_i|parents)=\frac{1}{4}\Big((g_{s(i)}^{(1)})^2+(g_{s(i)}^{(2)})^2+(g_{d(i)}^{(1)})^2+(g_{d(i)}^{(2)})^2\Big)-\frac{1}{2}\Big(g_{s(i)}^{(1)}g_{s(i)}^{(2)}+g_{d(i)}^{(1)}g_{d(i)}^{(2)}\Big)
次に期待値をとる。$E((g_{s(i)}^{(1)})^2)=Var(g_{s(i)}^{(1)})-E(g_{s(i)}^{(1)})^2=\sigma_g^2$であることを活用すると、
E(Var(a_i|parents))=\frac{1}{4}(\sigma_g^2*4)-\frac{1}{2}\Big(E\big(g_{s(i)}^{(1)}g_{s(i)}^{(2)}\big)+E\big(g_{d(i)}^{(1)}g_{d(i)}^{(2)}\big)\Big)
ここで、$E\big(g_{s(i)}^{(1)}g_{s(i)}^{(2)}\big)=f_{s(i)}\sigma_g^2$が成り立つので、
E(Var(a_i|parents))=\sigma_g^2-\frac{1}{2}\Big(f_{s(i)}+f_{d(i)}\Big)\sigma_g^2
これが家系内分散である。
家系間分散
Var(E(a_i|g_s(i)^{(1)},g_s(i)^{(2)},g_d(j)^{(1)},g_d(j))^{(2)}))
E(a_i|parents)=\frac{1}{2}g_{s(i)}^{(1)}+\frac{1}{2}g_{s(i)}^{(2)}+\frac{1}{2}g_{d(i)}^{(1)}+\frac{1}{2}g_{d(i)}^{(2)}
Var(E(a_i|parents))=\frac{1}{4}\Big(Var(g_{s(i)}^{(1)})+Var(g_{s(i)}^{(2)})+Var(g_{d(i)}^{(1)})+Var(g_{d(i)}^{(2)})\Big)+\frac{1}{2}\Big(Cov(g_{s(i)}^{(1)},g_{s(i)}^{(2)})+Cov(g_{d(i)}^{(1)},g_{d(i)}^{(2)})\Big)+\frac{1}{2}\Big(Cov(g_{s(i)}^{(1)},g_{d(i)}^{(1)})+Cov(g_{s(i)}^{(2)},g_{d(i)}^{(2)})+Cov(g_{s(i)}^{(1)},g_{d(i)}^{(2)})+Cov(g_{s(i)}^{(2)},g_{d(i)}^{(1)})\Big)
まとめると
Var(E(a_i|parents))=\sigma_g^2+\frac{1}{2}(f_{s(i)}+f_{d(i)})\sigma_g^2+2f_{s(i)d(i)}
ここで$f_i=f_{s(i)d(i)}$が成り立つから
Var(E(a_i|parents))=\sigma_g^2+\frac{1}{2}(f_{s(i)}+f_{d(i)})\sigma_g^2+2f_i
全体の分散
Var(a_i)=2(1+f_i)\sigma_g^2
まとめると
家系内分散; $\sigma_g^2-\frac{1}{2}\Big(f_{s(i)}+f_{d(i)}\Big)\sigma_g^2$
家系間分散; $\sigma_g^2+\frac{1}{2}\Big(f_{s(i)}+f_{d(i)}\Big)\sigma_g^2+2f_i$
全体の分散; $2\sigma_g^2+2f_i\sigma_g^2$
定理 分子血縁行列② (近交係数を用いない方法)
両親を固定すると、ある個体の育種価の分布は次のように表すことができる。
E[a_i|parents] = \Big( \frac{u_{s(i)}+u_{d(i)}}{2} \Big)
Var[a_i|parents] = \sigma_g^2-\frac{1}{2}\Big(f_{s(i)}+f_{d(i)}\Big)\sigma_g^2



