47
36

More than 3 years have passed since last update.

α多様性とβ多様性

Last updated at Posted at 2020-05-09

概要

土壌や腸を対象にした菌叢解析において、微生物群集構造の多様性を比較する際に、α 多様性β 多様性といった指標を用いることがある。
本稿では、菌叢解析パッケージ Qiime2 で提供されている多様性指標について説明する。

α 多様性と β 多様性の違い

  • α 多様性

ある 1 つのサンプルの多様性を表す。すなわちサンプル固有の指標で、値が大きいほど種の多様性が高い。指標によって「観測された種の数」と「それぞれの種が均等に観測されること」のどちらを重視するのかが異なる。

  • β 多様性

ある 2 つのサンプルの多様性の相違度を表す。2 点間の距離として表現される指標。距離が大きくなるほど、2 つのサンプルの組成が異なる。

α 多様性の種類

Chao1

最も古典的な指標の 1 つで、観測された種の数に基づいており、その中でも希少な種に重みをつけている。

$$
S_{Chao1}=S_{obs}+ \frac{n_1^2}{2n_2}
$$

$S_{obs}$ :サンプルで観測された種数
$S_{1}$ :Sigleton taxa (サンプル中で 1 read だけ観測された種)の数
$S_{2}$ :Doubleton taxa (サンプル中で 2 read だけ観測された種)の数

Shannon Index

最もよく使われている指標の 1 つで、サンプル全体に対する種の割合に基づいて計算される。種の数が多く、それぞれの種が均等に存在すると、指標は高くなる。また、対数をとることにより希少な種に重みがつけられている。

$$
H^{'}= -\sum^s_{i=1} p_i ln p_i \ ただし \sum^s_{i=1} p_i =1
$$

$S$ :サンプルで観測された種数
$p_{i}$ :サンプル全体に対する種 $i$ の割合

Pielou's Eveness Index (Pielou の均衡度指数)

Shannon index をサンプルで観測された種数によって補正した指標。種が均等に存在することに対して、重みがつけられている。

$$
J= \frac{H^{'}}{logS}
$$

$S$ :サンプルで観測された種数
$H^{'}$ :Shannon Index

Simpson Index

Shannon index と同様に、サンプル全体に対する種の割合に基づいて計算される。種の数が多く、それぞれの種が均等に存在すると、指標は高くなる。ただし、二乗の影響で主要な種に重みがつけられている。最低値は 0 で、多様性が高いほど 1 に近づく。

$$
D= 1- \sum^S_{i=1}p_i^2 \ ただし 0 \leq D \leq 1
$$

$S$ :サンプルで観測された種数
$p_{i}$ :サンプル全体に対する種 $i$ の割合

Simpson Index of Evenness

主要な種が均等に存在するほど 1 に近づく指標。最低値は 0 。二乗の影響で希少な種によって影響されにくい。

$$
E= \frac{1}{S\sum^S_{i=1}p_i^2} \ ただし 0 \leq E \leq 1
$$

$S$ :サンプルで観測された種数
$p_{i}$ :サンプル全体に対する種 $i$ の割合

Faith’s Phylogenetic Diversity

系統樹の長さを取り入れた多様性指数。(調査中)

β 多様性の種類

Jaccard 距離

2 つのサンプル $A、B$ で観測された種の数に基づく指標。両サンプルに共通で存在する種の数が少なくなるほど、距離は 1 に近づく。定性的であり、各種の存在量には影響されない。よって、希少な種に影響を受けやすい。

$$
S_j= 1- \frac{S_{AB}}{S_A+S_B-S_{AB}} ただし 0 \leq S_j \leq 1
$$

$S_{AB}$ :サンプル $A$ 、$B$ に共通で存在する種の数
$S_{A}$ :サンプル $A$ に存在するが、サンプル $B$ には存在しない種の数
$S_{A}$ :サンプル $A$ に存在するが、サンプル $B$ には存在しない種の数

Bray-Curtis 距離

2 つのサンプル$A、B$で観測された種の存在量に基づく指標。両サンプルに共通する種でも、その存在量に差があると距離は最大 1 まで広がる。定量的な指標であるため、主要な菌種の分布に影響されやすい。

$$
BC= \frac{\sum^n_{i=1}|X_{iA}-X_{iB}|}{\sum^n_{i=1}(X_{iA}+X_{iB})} \ ただし 0 \leq BC \leq 1
$$

$X_{iA}$ :サンプル $A$ で観測された種 $i$の read 数
$X_{iB}$ :サンプル $B$ で観測された種 $i$の read 数
$n$ :全サンプルで一度でも観測された種の数

Unifrac 距離

系統樹の枝長で重みづけられた指標。サンプル $AB$ 間の距離を計算する場合、どちらかのサンプルで最低でも 1 回観測された種のみに着目して計算される。

例えば、全サンプルから 5 種(a、b、c、d、e)の細菌が観測されても、サンプル$A$で 種 a と 種 d しか観測されない場合、サンプル $AB$ 間の unifrac 距離に影響する枝長は下図の赤色部分のみである。

図1.png

近縁種は、枝の共通部分が長いため加重の差も小さい。一方で遠縁種は、枝の共通部分が短いため加重の差も大きい。例えば下図の種 a 、 b において、枝の赤色部分が共通であるから、緑色部分で枝長に差が生じる。

図2.png

すなわち、遺伝的な類縁度が系統樹の枝長として反映されている。

枝葉の種に対して、存在すれば「定数 $E$ 」とおき、存在しなければ「0」とおいて計算したものを unweighted Unifrac 距離といい、サンプル全体の何 % 占めるかによって重みづけされたものを weighted Unifrac 距離という。

Unweighted Unifrac 距離

d^U= \sum^n_{i=1} \frac{b_i|E_{i,A}-E_{i,B}|}{\sum^n_{i=1} b_i}

$n$ :サンプル $A$ または $B$ で最低でも 1 回観測された種の数
$b_i$ :種 $i$ の枝長
$E_{i,A}$ 、$E_{i,B}$ :サンプル $A$、$B$ に種 $i$ が存在すれば定数 $E$ とおき、存在しなければ 0 とおく。

Weighted Unifrac 距離

d^W= \frac{\sum^n_{i=1}b_i|p_i^A-p_i^B|}{\sum^n_{i=1} b_i(p_i^A+p_i^B)}

$n$ :サンプル $A$ または $B$ で最低でも 1 回観測された種の数
$b_i$ :種 $i$ の枝長
$p_i^A$ 、$p_i^B$ :サンプル $A$、$B$ を占める種 $i$ の割合

出典

Statistical Analysis of Microbiome Data with R (ICSA Book Series in Statistics) (英語) ペーパーバック – 2018/12/16

Studying Microbial Diversity

47
36
7

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
47
36