More than 5 years have passed since last update.

ONTシーケンスのデータで de novo assemblyがしたい

ゲノムアセンブリ

Last updated at 2020-02-23Posted at 2020-02-22

訳あってde novo assemblyをすることになった。
ロングリード、ショートリード、 Hi-Cの三点盛りでアセンブルするぞ！

おおまかな流れ

DNA抽出->シーケンス
flyeでアセンブル <-今回はここまで
racon, pilonでポリッシング
BUSCOによるアセンブリ評価
Hi-Cで染色体スケールのスキャフォールディング
アノテーション

材料について

材料:
イネ科の植物の若めの葉っぱ

ゲノムサイズ:
400Mbくらい

DNA抽出:
ロングリード用:
伝統的なCTAB法 (DNAをくるくるっとまきとるやつ)で抽出後、断片化DNAをShort Read Eliminator (日本ジェネティクス SS-100-101-01)を用いて除去
CTABの方がNucleoBond HMWより長いのが取れている気がする。粘り気が全然違う。...気がする。
イルミナシーケンス用:
DNeasy (Qiagen)

ライブラリ調整&シーケンス:
ONT:
ここから先は外注（いつか自分でもやってみたい）
Illumina:
Kapa Hyperのキット
PCRは3cycle (ほんとはPCRフリーの方が良かったようだ)
だいたい数千万リード 150 PE
Hi-C:
ビオチンがアホみたいに高いのでUeli labのプロトコルを多少モディファイして系を小さくした。
今回はHind IIIで切った。

解析サーバー:
DDBJのスパコン

Step.1 flyeによるde novo assembly

Kolmogorov. et al. nature biotechnology (2019)
https://github.com/fenderglass/Flye

1.1. condaでインストール

conda install -c bioconda flye

1.2. de novo assembly
今回はONTシーケンスはとくに前処理なし。error-correctionや、長いリードだけ取ってくるなどした方がいいらしい。
N50: 20kbくらい
平均長: 10kb弱
だいたいゲノムの100xくらいのカバレッジ

# !/bin/sh
# $ -S /bin/sh
# $ -cwd

##### シェルスクリプトを使用する場合、パスを明示しないとどうもうまくいかない
export PATH=$PATH:~/miniconda3/bin/

#### 仮想環境の立ち上げ
#### 仮想環境を作ってそこにインストールしたので
source activate nanopore

flye --nano-raw hoge.fq.gz \
 --out-dir output \
 --genome-size 400M \
 --threads 16

--out-dir 出力するディレクトリ名の指定
--nano-raw ONTの場合はこのオプションをつける
--genome-size おおよそのゲノムサイズを指定
--threads 使用CPU数

以上のスクリプトを下のようなオプションつけて投げた

qsub -l s_vmem=128G -l mem_req=8G -pe def_slot 16 hoge.sh

だいたい1日ちょっとでアセンブルが終わった。

アセンブル結果の確認はseqkitが便利
Shen et al. PLOS ONE (2016)
https://bioinf.shenwei.me/seqkit/
以下のコマンドでおおよそのアセンブル結果を得る

seqkit stats -a hoge.fasta

つづく

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up