More than 5 years have passed since last update.

遺伝子発現データのモデリングに”負の二項分布”を用いることがあるのはなぜか？

Last updated at 2020-03-22Posted at 2018-12-20

本記事について

＜対象読者＞

遺伝子解析系ツール内のアルゴリズムについての論文やドキュメントで、遺伝子発現量が”負の二項分布に従う”と仮定して統計解析を行なっている論文に出会うことがしばしばある。
例えば、R用シングルセル解析ソフトウェア Seurat のFindMarkers関数では、「負の二項分布に従うと仮定して尤度比検定を行う」という検定手法のオプションが用意されている。
では、どのようなときに負の二項分布を用いればよいのだろうか？

＜一般的な定義＞

互いに独立なベルヌーイ試行を考える。このとき、「互いに独立で、確率 $p$ で成功する試行が、 $k$ 回成功するまでに必要な試行回数 $X$」が従う確率分布が負の二項分布である。
定式化すると、負の二項分布に従う確率変数 $X$ の確率関数は（1）で表現される。
$$
P(X=x) = {}_{x-1} C_{k-1} p^{k} (1-p)^{x-k},,,,・・・(1)
$$

遺伝子発現量データは、リード数のカウントデータ（0以上の整数で表現される離散データ）である。
ある遺伝子について、各リードが得られる確率が一定であると考えたとき、各リードはポアソン過程に従って発生していると考えることができる。
ポアソン過程に従って発生する, 平均 $\lambda$ の離散確率変数 $X ,(X = 0, 1, 2, ...)$ は, ポアソン分布（2）に従う。
$$
P(X=x) = \cfrac{e^{-\lambda}\lambda^x}{x!},,,,・・・(2)
$$
また、平均 $\lambda$ のポアソン分布は、分散も $\lambda$ である。

では、（天下り的ではあるが）パラメータ $\lambda$ がガンマ分布 $Ga(k, \frac{p}{1 - p})$ に従っていると考えて, リード数カウントの確率分布を考えてみる。
$$
Ga(k, \frac{p}{1 - p}) = \cfrac{1}{\Gamma(k)}\lambda^{k - 1}e^{-\frac{p}{1-p}\lambda}
$$
このとき、「パラメータ $\lambda$ のポアソン分布 $Po(\lambda)$ を, $\lambda$ についてガンマ分布 $Ga(k, \frac{p}{1 - p})$ で混合する」と表現し、混合した後の確率分布を $Q(X)$ として次の積分を計算する。
$$
Q(X = x) = \int_0^\infty\cfrac{e^{-\lambda}\lambda^x}{x!}\cfrac{1}{\Gamma(k)}\lambda^{k - 1}e^{-\frac{p}{1-p}\lambda}d\lambda
$$
上記の積分の計算結果として,$(1)$ の式で表される負の二項分布が現れる。
$$
Q(X=x) = {}_{x-1} C_{k-1} p^{k} (1-p)^{x-k}
$$