More than 5 years have passed since last update.

α多様性とβ多様性

Last updated at 2020-11-04Posted at 2020-05-09

概要

土壌や腸を対象にした菌叢解析において、微生物群集構造の多様性を比較する際に、α 多様性やβ 多様性といった指標を用いることがある。
本稿では、菌叢解析パッケージ Qiime2 で提供されている多様性指標について説明する。

α 多様性と β 多様性の違い

α 多様性

ある 1 つのサンプルの多様性を表す。すなわちサンプル固有の指標で、値が大きいほど種の多様性が高い。指標によって「観測された種の数」と「それぞれの種が均等に観測されること」のどちらを重視するのかが異なる。

β 多様性

ある 2 つのサンプルの多様性の相違度を表す。2 点間の距離として表現される指標。距離が大きくなるほど、2 つのサンプルの組成が異なる。

α 多様性の種類

Chao1

最も古典的な指標の１つで、観測された種の数に基づいており、その中でも希少な種に重みをつけている。

$$
S_{Chao1}=S_{obs}+ \frac{n_1^2}{2n_2}
$$

$S_{obs}$ ：サンプルで観測された種数
$S_{1}$ ：Sigleton taxa (サンプル中で 1 read だけ観測された種)の数
$S_{2}$ ：Doubleton taxa (サンプル中で 2 read だけ観測された種)の数

Shannon Index

最もよく使われている指標の 1 つで、サンプル全体に対する種の割合に基づいて計算される。種の数が多く、それぞれの種が均等に存在すると、指標は高くなる。また、対数をとることにより希少な種に重みがつけられている。

$$
H^{'}= -\sum^s_{i=1} p_i ln p_i \ ただし \sum^s_{i=1} p_i =1
$$

$S$ ：サンプルで観測された種数
$p_{i}$ ：サンプル全体に対する種 $i$ の割合

Pielou's Eveness Index （Pielou の均衡度指数）

Shannon index をサンプルで観測された種数によって補正した指標。種が均等に存在することに対して、重みがつけられている。

$$
J= \frac{H^{'}}{logS}
$$

$S$ ：サンプルで観測された種数
$H^{'}$ ：Shannon Index

Simpson Index

Shannon index と同様に、サンプル全体に対する種の割合に基づいて計算される。種の数が多く、それぞれの種が均等に存在すると、指標は高くなる。ただし、二乗の影響で主要な種に重みがつけられている。最低値は 0 で、多様性が高いほど 1 に近づく。

$$
D= 1- \sum^S_{i=1}p_i^2 \ ただし 0 \leq D \leq 1
$$

$S$ ：サンプルで観測された種数
$p_{i}$ ：サンプル全体に対する種 $i$ の割合

Simpson Index of Evenness

主要な種が均等に存在するほど 1 に近づく指標。最低値は 0 。二乗の影響で希少な種によって影響されにくい。

$$
E= \frac{1}{S\sum^S_{i=1}p_i^2} \ ただし 0 \leq E \leq 1
$$

$S$ ：サンプルで観測された種数
$p_{i}$ ：サンプル全体に対する種 $i$ の割合

Faith’s Phylogenetic Diversity

系統樹の長さを取り入れた多様性指数。（調査中）

β 多様性の種類

Jaccard 距離

2 つのサンプル $A、B$ で観測された種の数に基づく指標。両サンプルに共通で存在する種の数が少なくなるほど、距離は 1 に近づく。定性的であり、各種の存在量には影響されない。よって、希少な種に影響を受けやすい。

$$
S_j= 1- \frac{S_{AB}}{S_A+S_B-S_{AB}} ただし 0 \leq S_j \leq 1
$$

$S_{AB}$ ：サンプル $A$ 、$B$ に共通で存在する種の数
$S_{A}$ ：サンプル $A$ に存在するが、サンプル $B$ には存在しない種の数
$S_{A}$ ：サンプル $A$ に存在するが、サンプル $B$ には存在しない種の数

Bray-Curtis 距離

2 つのサンプル$A、B$で観測された種の存在量に基づく指標。両サンプルに共通する種でも、その存在量に差があると距離は最大 1 まで広がる。定量的な指標であるため、主要な菌種の分布に影響されやすい。

$$
BC= \frac{\sum^n_{i=1}|X_{iA}-X_{iB}|}{\sum^n_{i=1}(X_{iA}+X_{iB})} \ ただし 0 \leq BC \leq 1
$$

$X_{iA}$ ：サンプル $A$ で観測された種 $i$の read 数
$X_{iB}$ ：サンプル $B$ で観測された種 $i$の read 数
$n$ ：全サンプルで一度でも観測された種の数

Unifrac 距離

系統樹の枝長で重みづけられた指標。サンプル $AB$ 間の距離を計算する場合、どちらかのサンプルで最低でも 1 回観測された種のみに着目して計算される。

例えば、全サンプルから 5 種（a、b、c、d、e）の細菌が観測されても、サンプル$A$で種 a と種 d しか観測されない場合、サンプル $AB$ 間の unifrac 距離に影響する枝長は下図の赤色部分のみである。

近縁種は、枝の共通部分が長いため加重の差も小さい。一方で遠縁種は、枝の共通部分が短いため加重の差も大きい。例えば下図の種 a 、 b において、枝の赤色部分が共通であるから、緑色部分で枝長に差が生じる。

すなわち、遺伝的な類縁度が系統樹の枝長として反映されている。

枝葉の種に対して、存在すれば「定数 $E$ 」とおき、存在しなければ「0」とおいて計算したものを unweighted Unifrac 距離といい、サンプル全体の何 % 占めるかによって重みづけされたものを weighted Unifrac 距離という。

Unweighted Unifrac 距離

d^U= \sum^n_{i=1} \frac{b_i|E_{i,A}-E_{i,B}|}{\sum^n_{i=1} b_i}

$n$ ：サンプル $A$ または $B$ で最低でも 1 回観測された種の数
$b_i$ ：種 $i$ の枝長
$E_{i,A}$ 、$E_{i,B}$ ：サンプル $A$、$B$ に種 $i$ が存在すれば定数 $E$ とおき、存在しなければ 0 とおく。

Weighted Unifrac 距離

d^W= \frac{\sum^n_{i=1}b_i|p_i^A-p_i^B|}{\sum^n_{i=1} b_i(p_i^A+p_i^B)}

$n$ ：サンプル $A$ または $B$ で最低でも 1 回観測された種の数
$b_i$ ：種 $i$ の枝長
$p_i^A$ 、$p_i^B$ ：サンプル $A$、$B$ を占める種 $i$ の割合

出典

Statistical Analysis of Microbiome Data with R (ICSA Book Series in Statistics) (英語) ペーパーバック – 2018/12/16

Studying Microbial Diversity

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up