2
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

全ゲノム増幅したサンプルがうまくアセンブルできないときはCanuを試すと良いかもしれない

Last updated at Posted at 2023-03-05

2024-02-28 追記:
全ゲノム増幅を利用してエビに感染するウイルスのゲノム配列を解析した論文が出版されました。ぜひご覧ください。
Kawato et al. (2023) "Evolutionary genomics of white spot syndrome virus"

動機

Multiple displacement amplificationで全ゲノム増幅したサンプルからウイルスの環状ゲノムをアセンブルするとき、キメラリードのせいでうまくアセンブルできないことがあった。そのときのトラブルシューティングを記しておく。

今回使うのはエビに感染するウイルスのWSSV (white spot syndrome virus)。
MAG: White spot syndrome virus E2 DNA, complete genome
E2.png

大型DNAウイルスゲノムの解析 (1) アセンブリ編に沿って、事前に

  • 極端に短いリード(10kb未満)の除去
  • WSSV参照ゲノム (NC_003225.3) にリードを貼りつける
  • 貼り付いたリードを回収 (E2.up10k.mapped.fq.gz)
    を事前に行った。

とりあえずFlyeでアセンブル

最もポピュラーなロングリードアセンブラの一つであるFlyeでアセンブルする。

conda activate flye-2.9
flye --nano-raw E2.up10k.mapped.fq.gz --out-dir flye_up10k  --threads 16

アセンブリグラフ(assembly_graph.gfa)をBandageで可視化する。
E2_flye_up10k_graph.png
アセンブリが2本のコンティグに断片化している。

flye_up10k/assembly_info.txt
#seq_name       length  cov.    circ.   repeat  mult.   alt_group       graph_path
contig_1        194659  90      N       N       1       *       *,1,*
contig_2        98037   101     N       N       1       *       *,2,*

カバレッジは90‐101Xと十分なようだ。

何が起きたのか

なぜカバレッジが十分にもかかわらずアセンブリが断片化してしまったのか。
WSSVの参照配列(NC_003225.3)と小さいほうのコンティグをpairwise BLASTNで比較する。
image.png
image.png

ドットプロットを拡大する。
hit_matrix.png
当該コンティグは参照配列の140kbp-235kbpあたりにヒットした。つまり140kbpと235kbpの部位でアセンブリが分断されている。この領域に貼り付いたONTリードをIGVで可視化すると、

  minimap2 --MD -Y -ax map-ont -t 8 CN01.fa E2.up10k.mapped.fq.gz | samtools view -Sb -  |samtools sort -@ $NUMTH -O BAM -o E2.up10k.bam
  samtools index E2.up10k.bam

igv_snapshot2.png
色付きの部分がキメラ。これがFlyeのアセンブリに悪さをしている可能性がある。

Canuを試す

ロングリードアセンブラのCanuは塩基のエラー修正とトリミングを行ってくれる。トリミングのステップがMGAに起因するキメラリードをパージしてくれているようだ。

canu -d canu_up10k -p canu_up10k genomeSize=300k -nanopore-raw E2.up10k.mapped.fq.gz
canu_up10k/canu_up10k.contigs.fasta
>tig00000002 len=302145 reads=862 class=contig suggestRepeat=no suggestBubble=no suggestCircular=yes trim=8655-297985
TTGTTGCTGCCCCGACAACACCCCTCGTACCTTCTAATGTGGAGGAAGAGGAAGAGGAAGAAGAGCAGATGGAAGAAGAGGAGGAAGAGGAAGTAGAAAG
GGAAGAAGGATCTGATAAGGAAGATGACGGAGACGCACCAGCACAGGAAGAAATGGAGGAGGAGAAGGAAGAAGAACAACAACAACAGCCAGAAGAAGAA
AGCAATGGTAATGAGAACCAAGAAGAAGAACAACAACAACAACAACAACCAGAAAGAGAAGAGGAGAATAAGGATGCAGATAGTGACA...

suggestCircular=yesということで、無事環状コンティグをアセンブルできた。
余計かもしれないが、Canuが生成したエラー修正&トリム済みリードをFlyeでアセンブルしてみる。

conda activate flye-2.9
### Flye using Canu-corrected reads ###
flye --nano-corr ./canu_up10k/canu_up10k.trimmedReads.fasta.gz --out-dir flye_up10k_canu_trimmedReads  --threads 16

無事環状コンティグが得られた。

flye_up10k_canu_trimmedReads/assembly_info.txt
#seq_name       length  cov.    circ.   repeat  mult.   alt_group       graph_path
contig_1        289335  39      Y       N       1       *       1

E2_flye_up10k_canu_trimmedReads_graph.png

エラー修正&トリム済みリードを参照ゲノムに貼り付けると、

minimap2 --MD -Y -ax map-ont -t 20 ../CN01.fa canu_up10k/canu_up10k.trimmedReads.fasta.gz | samtools view -Sb -  |samtools sort -@ $NUMTH -O BAM -o E2.canu_up10k.trimmedReads.bam
samtools index E2.canu_up10k.trimmedReads.bam

キメラリードがほぼ消えている(下段)。
igv_snapshot.png

ショートリードでポリッシュして、配列は完成。

2
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?