本記事について
<対象読者>
- バイオインフォマティクス(生物情報学・生命情報学), 遺伝子データの統計解析について学んでいる。
- 遺伝子解析関連の論文中でよく出てくる, ポアソン分布・ガンマ分布・負の二項分布について、関係性を整理したい。
はじめに
- 遺伝子解析系ツール内のアルゴリズムについての論文やドキュメントで、遺伝子発現量が”負の二項分布に従う”と仮定して統計解析を行なっている論文に出会うことがしばしばある。
- 例えば、R用シングルセル解析ソフトウェア Seurat のFindMarkers関数では、「負の二項分布に従うと仮定して尤度比検定を行う」という検定手法のオプションが用意されている。
- では、どのようなときに負の二項分布を用いればよいのだろうか?
負の二項分布とは?
<一般的な定義>
- 互いに独立なベルヌーイ試行を考える。このとき、「互いに独立で、確率 $p$ で成功する試行が、 $k$ 回成功するまでに必要な試行回数 $X$」が従う確率分布が負の二項分布である。
- 定式化すると、負の二項分布に従う確率変数 $X$ の確率関数は(1)で表現される。
$$
P(X=x) = {}_{x-1} C_{k-1} p^{k} (1-p)^{x-k},,,,・・・(1)
$$
カウントデータに対するモデリング:ポアソン分布
- 遺伝子発現量データは、リード数のカウントデータ(0以上の整数で表現される離散データ)である。
- ある遺伝子について、各リードが得られる確率が一定であると考えたとき、各リードはポアソン過程に従って発生していると考えることができる。
- ポアソン過程に従って発生する, 平均 $\lambda$ の離散確率変数 $X ,(X = 0, 1, 2, ...)$ は, ポアソン分布(2)に従う。
$$
P(X=x) = \cfrac{e^{-\lambda}\lambda^x}{x!},,,,・・・(2)
$$ - また、平均 $\lambda$ のポアソン分布は、分散も $\lambda$ である。
ポアソン分布のパラメータの"ばらつき"を考慮する
- 遺伝子発現量データは, ポアソン分布に従うと考えることができるとわかった。
- パラメータ $\lambda$ のポアソン分布の平均と分散は $\lambda$ で等しいこともわかった。
- しかしながら、現実のデータは、平均と分散がおよそ等しくなるとは限らず、実際は、分散が平均よりも大きくなる過分散となっていることが多い。
- 過分散は, それぞれのリードの生起確率が実際には一定でなく, ばらついていることから生じる。
- ばらつきを考慮するために、パラメータ $\lambda$ が、何らかの確率分布に従っていると考えることにする。
ポアソン分布と負の二項分布の関係
-
では、(天下り的ではあるが)パラメータ $\lambda$ がガンマ分布 $Ga(k, \frac{p}{1 - p})$ に従っていると考えて, リード数カウントの確率分布を考えてみる。
$$
Ga(k, \frac{p}{1 - p}) = \cfrac{1}{\Gamma(k)}\lambda^{k - 1}e^{-\frac{p}{1-p}\lambda}
$$ -
このとき、「パラメータ $\lambda$ のポアソン分布 $Po(\lambda)$ を, $\lambda$ についてガンマ分布 $Ga(k, \frac{p}{1 - p})$ で混合する」と表現し、混合した後の確率分布を $Q(X)$ として次の積分を計算する。
$$
Q(X = x) = \int_0^\infty\cfrac{e^{-\lambda}\lambda^x}{x!}\cfrac{1}{\Gamma(k)}\lambda^{k - 1}e^{-\frac{p}{1-p}\lambda}d\lambda
$$ -
上記の積分の計算結果として,$(1)$ の式で表される負の二項分布が現れる。
$$
Q(X=x) = {}_{x-1} C_{k-1} p^{k} (1-p)^{x-k}
$$
結局、どのような時に負の二項分布でモデリングするのか?
- リード数カウントについて, 分散が平均よりも大きい過分散となっており、ポアソン分布の仮定を置くことが適切でないと考えられるとき。