LoginSignup
1
0

More than 1 year has passed since last update.

ホモポリマーの解析

Posted at


PictBio HP「解析メモ」から移行中です。
元記事:2016/04/14 公開 ホモポリマーの解析 : MiSeq

 シーケンサーはホモポリマーを読むのが苦手という弱点があります。

次世代シーケンサー「MiSeq」 はこの点に強いと紹介されており(こちら)、我々も実際にMiseqのデータを扱うことが多いので今回ホモポリマーに着目してみました。

 サンプルは、ある生物(クローン)の腸内 18S メタゲノムです。

 解析の際、ホストのゲノムが大量に得られました。ホストはクローンのため、理論的には得られたホストゲノムは配列が一致します。データ処理は次のように行い、それぞれのまとまりをOTU とし、カウントを行いました。

  1. トリミング
  2. アセンブル(ペアリードマージ)
  3. キメラ除去
  4. Unique(100%一致する配列をまとめる)処理

 結果、 OTU が大量に生成されました。配列を見てみると、数塩基の違いでまとまらなかったことが原因のようです。

マルチプルアライメントで確認

 具体的にどういったところにシーケンスエラーが起こりやすいか、確認してみました。リードは読み始め、読み終わりはクオリティが下がる傾向にあるため、中間のマルチプルアライメントを取り出してみます。

ホスト由来 18S リード(中間部)のマルチプルアライメント「高 Simirality (98%<)」
高 Simirality

 円でしるしを付けた箇所がシーケンスエラーの可能性が高い配列です。傾向としては、連続した塩基やその周囲で起こっているように見られます。

ホスト由来 18S リード(中間部)のマルチプルアライメント「低 Simirality (96%<)」
低 Simirality

 同じく繰り返し配列やその周辺に見られる様子です。水色で示している箇所は同じ部位に複数見られたものを表しています。

 配列を得るまでのどの段階でこのようになるかはわかりませんが、情報解析時にはこれらの結果をふまえて計算することになります。

ミスマッチをどう扱うか

 ではメタゲノム解析でクラスタリングする際、いくつまでのミスマッチを許容すべきなのでしょうか。

 Unique にした時点のホスト OTU 数が 983 あったのですが、この個体はクローンなので “1” OTU にまとまることを目指します。

Simirality 基準で OTU を段階的にまとめてみます。縦軸に OTU 数、横軸に Simirality をまとめる際の値をとると、以下のグラフになります。

OTU と Simirality の相関グラフ
OTU Simirality

 フラグメントサイズ 420bp のサンプルですが、グラフから Simirality 0.91 の時点で一つの OTU になりそうです。38bp 、または、10% までミスマッチを許容する設定になります。

 かなり緩い設定となってしまいますが、ざっくりとした優占種を調べたいときは、影響は少ないかと思います。一方、レアな個体や、ある種に近い未知の個体を調べる際には、問題が出てきてしまう可能性があります。用途によってこの値を調整することが重要と考えられます。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0