この投稿は 限定共有に設定されています。 投稿者本人及びURLを知っているユーザーのみアクセスすることができます。

ゲノムアセンブリ

  • 0
    コメント

基本的にすべてde novo (リファレンス配列の存在を仮定しない)単一ゲノムアセンブリ限定の話

アセンブリ全般に関する話

用語など

  • 用語を含めた基本的な考え方についてはMichael Schatzのスライド(特に32ページ以降)がまとまっていて分かりやすい
  • string graphの詳細な定義はMyers2005を参照
  • assembly graph, overlap graph, string graphは厳密には違うらしいが、特に区別しないことにする

リピート(重複領域)とリード長について

  • de Bruijnグラフによるアプローチは、Pevzner,Tang,Waterman2001ではEulerian path problemを解くと元のゲノム配列が得られる("Eulerian path problem that allows one to generate accurate solutions of large-scale sequencing problems")と述べられているが、正確には、「(リードにエラーがなく、シークエンシング量が十分にある場合に)グラフ中に元のゲノム配列に対応するEulerian pathが存在することを保証する」だけであり、元と同じ配列に再構成できるとは限らない
    • 元と同じ配列に再構成できなくなる条件は、リード長以上の長さのpair of interleaved repeats (下図)またはtriple repeatが存在するとき(Bresler,Bresler,Tse2013)
    • 実際のアセンブリでは基本的に越えられないリピートがあるところでコンティグの伸長を止める
    • SNP等の情報を頼りにリピートを解消する手法には例えばLam,Khalak,Tse2014がある

ショートリードからロングリードへ

  • Gene Myersは完全なアセンブリの必要十分条件を以下のように述べた(dazzlerblogまたはMyers2014)
    1. リードの集合が元のゲノムからPoisson samplingとして得られる
    2. シークエンシングエラーがランダムに生じる
    3. アセンブリを曖昧にするようなリピートを解決できる程度にリードが長い
      • 実際にエラーがある場合にどの程度のリード長が必要なのかについても上と同じくMotahari,Ramchandran,Tse,Ma2013で議論されている
  • PacBioは条件1、2をほぼ完全に満たし、条件3についても多くの場合満たすことのできる現状唯一のシークエンサー
    • なのだが、実際にはPacBioのエラー率は連続した区間で高くなりやすい(下図左(Myers2015); ランダムではある)
      • その影響を排除するためにMyersが開発しているのがDASCRUBBER(およびそのサブモジュールDAMASKER)
    • ホモポリマー(e.g. AAA...)で間違えやすいのは文脈依存のエラーでは?
  • Oxford nanopore (MinION)には系統的なシークエンシングがある?
    • PacBioとMinIONの性質をまとめた論文がKin Fai Au研からもうすぐ出るとのこと

long-range information / repeat-aware & poloidy-aware assembly

  • 10X, bionano, Hi-C
    • paired-end read, BACの発展系?
  • リピート構造を考慮に入れたアセンブリの機運
    • Canu, HINGE

  • FALCON unzip
    • polyploidへの拡張

ロングリード(特にPacBio)のアセンブリについて

  • de Bruijn graphはシークエンシングエラー率が約10%を超えたあたりでグラフサイズが大きくなり過ぎて計算できない
  • 現状、PacBioのアセンブリパイプラインは下図(Myers2015)のようになっている
    • グラフを構成する前にリードのエラー補正を行っているのが特徴的

  • こちらはMyersが将来的に考えているアセンブラ(DAZZLER assembler)の概念図で、DASCRUBBERによってアラインメントの精度を上げることで、途中にリードのエラー補正を挟まない
    • PacBioリードにはSMRT bellのアダプターを除去しきれていないものが何パーセントか含まれることが判明している。そのようなリードはエラー補正のステップを挟むとほとんど無くなる(エラー補正できた領域だけを使うから; 補正後も残ってしまうこともある)のだが、エラー補正をしない方針だとグラフ構築の際に深刻な影響を及ぼす。このようなリードを除去する方法として、各リードに対して自身の逆相補配列とアラインメントを取り、(ある程度長い) dovetail overlapとなったリードを除く、という手法を考案した[未発表]。

各種ソフトウエア



(どちらもChin2016より)

ショートリードアセンブリ

PacBio Alignment

PacBio Preassembly (error correction for raw reads)

  • pbdagcon

  • FalconSense

PacBio Assembly

PacBio Consensus (error correction for contigs)

PacBio関連ツール

  • Falcon2Fastg & Bandage
    • Falcon2FastgはFALCONの出力ファイルからcontig graphをFASTG形式のファイルとして生成してくれる
    • contig graphだけではなく、error-corrected readのoverlap graphのFASTGファイルも生成できる
    • BandageはFASTGファイルをグラフに描画してくれる
      • パス(コンティグ)の名前や長さも表示可能
      • 自分で作ったコンティグのラベル情報のcsvを与えることも可能
  • ASTER
    • FALCON開発者によるアセンブリグラフ可視化ツール
  • DaViewer
    • Myersによるアラインメント可視化ツール
  • AlignQC

メタゲノムアセンブリ

  • メタゲノムでは、以下の2点が通常の単一ゲノムアセンブリと異なる
    • リピートの増加
      • -> アセンブリグラフの複雑度が上がりやすい
    • 菌種ごとの存在量(abundance)の違い
      • -> ゲノム配列は似ているが存在量の少ない菌種の扱い
  • リピートは単一ゲノムと同じようにロングリードで解消可能
  • 存在量の問題は、PacBioでも株が異なるくらい配列が違っていれば分別できそう
    • アセンブリグラフ上で分別できてさえいれば(bubbleになっていれば)、FALCON unzipなどの手法で再構成はできるだろう
    • それ以上細かいSNPなどは後から検出すれば良い