訳あってde novo assemblyをすることになった。
ロングリード、ショートリード、 Hi-Cの三点盛りでアセンブルするぞ!
おおまかな流れ
- DNA抽出->シーケンス
- flyeでアセンブル <-今回はここまで
- racon, pilonでポリッシング
- BUSCOによるアセンブリ評価
- Hi-Cで染色体スケールのスキャフォールディング
- アノテーション
材料について
材料:
イネ科の植物の若めの葉っぱ
ゲノムサイズ:
400Mbくらい
DNA抽出:
ロングリード用:
伝統的なCTAB法 (DNAをくるくるっとまきとるやつ)で抽出後、断片化DNAをShort Read Eliminator (日本ジェネティクス SS-100-101-01)を用いて除去
CTABの方がNucleoBond HMWより長いのが取れている気がする。粘り気が全然違う。...気がする。
イルミナシーケンス用:
DNeasy (Qiagen)
ライブラリ調整&シーケンス:
ONT:
ここから先は外注(いつか自分でもやってみたい)
Illumina:
Kapa Hyperのキット
PCRは3cycle (ほんとはPCRフリーの方が良かったようだ)
だいたい数千万リード 150 PE
Hi-C:
ビオチンがアホみたいに高いのでUeli labのプロトコルを多少モディファイして系を小さくした。
今回はHind IIIで切った。
解析サーバー:
DDBJのスパコン
Step.1 flyeによるde novo assembly
Kolmogorov. et al. nature biotechnology (2019)
https://github.com/fenderglass/Flye
1.1. condaでインストール
conda install -c bioconda flye
1.2. de novo assembly
今回はONTシーケンスはとくに前処理なし。error-correctionや、長いリードだけ取ってくるなどした方がいいらしい。
N50: 20kbくらい
平均長: 10kb弱
だいたいゲノムの100xくらいのカバレッジ
#!/bin/sh
#$ -S /bin/sh
#$ -cwd
##### シェルスクリプトを使用する場合、パスを明示しないとどうもうまくいかない
export PATH=$PATH:~/miniconda3/bin/
#### 仮想環境の立ち上げ
#### 仮想環境を作ってそこにインストールしたので
source activate nanopore
flye --nano-raw hoge.fq.gz \
--out-dir output \
--genome-size 400M \
--threads 16
--out-dir
出力するディレクトリ名の指定
--nano-raw
ONTの場合はこのオプションをつける
--genome-size
おおよそのゲノムサイズを指定
--threads
使用CPU数
以上のスクリプトを下のようなオプションつけて投げた
qsub -l s_vmem=128G -l mem_req=8G -pe def_slot 16 hoge.sh
だいたい1日ちょっとでアセンブルが終わった。
アセンブル結果の確認はseqkitが便利
Shen et al. PLOS ONE (2016)
https://bioinf.shenwei.me/seqkit/
以下のコマンドでおおよそのアセンブル結果を得る
seqkit stats -a hoge.fasta
つづく