概要
土壌や腸を対象にした菌叢解析において、微生物群集構造の多様性を比較する際に、α 多様性やβ 多様性といった指標を用いることがある。
本稿では、菌叢解析パッケージ Qiime2 で提供されている多様性指標について説明する。
α 多様性と β 多様性の違い
- α 多様性
ある 1 つのサンプルの多様性を表す。すなわちサンプル固有の指標で、値が大きいほど種の多様性が高い。指標によって「観測された種の数」と「それぞれの種が均等に観測されること」のどちらを重視するのかが異なる。
- β 多様性
ある 2 つのサンプルの多様性の相違度を表す。2 点間の距離として表現される指標。距離が大きくなるほど、2 つのサンプルの組成が異なる。
α 多様性の種類
Chao1
最も古典的な指標の 1 つで、観測された種の数に基づいており、その中でも希少な種に重みをつけている。
$$
S_{Chao1}=S_{obs}+ \frac{n_1^2}{2n_2}
$$
$S_{obs}$ :サンプルで観測された種数
$S_{1}$ :Sigleton taxa (サンプル中で 1 read だけ観測された種)の数
$S_{2}$ :Doubleton taxa (サンプル中で 2 read だけ観測された種)の数
Shannon Index
最もよく使われている指標の 1 つで、サンプル全体に対する種の割合に基づいて計算される。種の数が多く、それぞれの種が均等に存在すると、指標は高くなる。また、対数をとることにより希少な種に重みがつけられている。
$$
H^{'}= -\sum^s_{i=1} p_i ln p_i \ ただし \sum^s_{i=1} p_i =1
$$
$S$ :サンプルで観測された種数
$p_{i}$ :サンプル全体に対する種 $i$ の割合
Pielou's Eveness Index (Pielou の均衡度指数)
Shannon index をサンプルで観測された種数によって補正した指標。種が均等に存在することに対して、重みがつけられている。
$$
J= \frac{H^{'}}{logS}
$$
$S$ :サンプルで観測された種数
$H^{'}$ :Shannon Index
Simpson Index
Shannon index と同様に、サンプル全体に対する種の割合に基づいて計算される。種の数が多く、それぞれの種が均等に存在すると、指標は高くなる。ただし、二乗の影響で主要な種に重みがつけられている。最低値は 0 で、多様性が高いほど 1 に近づく。
$$
D= 1- \sum^S_{i=1}p_i^2 \ ただし 0 \leq D \leq 1
$$
$S$ :サンプルで観測された種数
$p_{i}$ :サンプル全体に対する種 $i$ の割合
Simpson Index of Evenness
主要な種が均等に存在するほど 1 に近づく指標。最低値は 0 。二乗の影響で希少な種によって影響されにくい。
$$
E= \frac{1}{S\sum^S_{i=1}p_i^2} \ ただし 0 \leq E \leq 1
$$
$S$ :サンプルで観測された種数
$p_{i}$ :サンプル全体に対する種 $i$ の割合
Faith’s Phylogenetic Diversity
系統樹の長さを取り入れた多様性指数。(調査中)
β 多様性の種類
Jaccard 距離
2 つのサンプル $A、B$ で観測された種の数に基づく指標。両サンプルに共通で存在する種の数が少なくなるほど、距離は 1 に近づく。定性的であり、各種の存在量には影響されない。よって、希少な種に影響を受けやすい。
$$
S_j= 1- \frac{S_{AB}}{S_A+S_B-S_{AB}} ただし 0 \leq S_j \leq 1
$$
$S_{AB}$ :サンプル $A$ 、$B$ に共通で存在する種の数
$S_{A}$ :サンプル $A$ に存在するが、サンプル $B$ には存在しない種の数
$S_{A}$ :サンプル $A$ に存在するが、サンプル $B$ には存在しない種の数
Bray-Curtis 距離
2 つのサンプル$A、B$で観測された種の存在量に基づく指標。両サンプルに共通する種でも、その存在量に差があると距離は最大 1 まで広がる。定量的な指標であるため、主要な菌種の分布に影響されやすい。
$$
BC= \frac{\sum^n_{i=1}|X_{iA}-X_{iB}|}{\sum^n_{i=1}(X_{iA}+X_{iB})} \ ただし 0 \leq BC \leq 1
$$
$X_{iA}$ :サンプル $A$ で観測された種 $i$の read 数
$X_{iB}$ :サンプル $B$ で観測された種 $i$の read 数
$n$ :全サンプルで一度でも観測された種の数
Unifrac 距離
系統樹の枝長で重みづけられた指標。サンプル $AB$ 間の距離を計算する場合、どちらかのサンプルで最低でも 1 回観測された種のみに着目して計算される。
例えば、全サンプルから 5 種(a、b、c、d、e)の細菌が観測されても、サンプル$A$で 種 a と 種 d しか観測されない場合、サンプル $AB$ 間の unifrac 距離に影響する枝長は下図の赤色部分のみである。
近縁種は、枝の共通部分が長いため加重の差も小さい。一方で遠縁種は、枝の共通部分が短いため加重の差も大きい。例えば下図の種 a 、 b において、枝の赤色部分が共通であるから、緑色部分で枝長に差が生じる。
すなわち、遺伝的な類縁度が系統樹の枝長として反映されている。
枝葉の種に対して、存在すれば「定数 $E$ 」とおき、存在しなければ「0」とおいて計算したものを unweighted Unifrac 距離といい、サンプル全体の何 % 占めるかによって重みづけされたものを weighted Unifrac 距離という。
Unweighted Unifrac 距離
d^U= \sum^n_{i=1} \frac{b_i|E_{i,A}-E_{i,B}|}{\sum^n_{i=1} b_i}
$n$ :サンプル $A$ または $B$ で最低でも 1 回観測された種の数
$b_i$ :種 $i$ の枝長
$E_{i,A}$ 、$E_{i,B}$ :サンプル $A$、$B$ に種 $i$ が存在すれば定数 $E$ とおき、存在しなければ 0 とおく。
Weighted Unifrac 距離
d^W= \frac{\sum^n_{i=1}b_i|p_i^A-p_i^B|}{\sum^n_{i=1} b_i(p_i^A+p_i^B)}
$n$ :サンプル $A$ または $B$ で最低でも 1 回観測された種の数
$b_i$ :種 $i$ の枝長
$p_i^A$ 、$p_i^B$ :サンプル $A$、$B$ を占める種 $i$ の割合