FASTAファイルから配列を切り取りたい!!
マルチFASTAから特定のscaffold中の配列と抽出したい!
そんな時ありますよね。その場合、seqkit
が便利ですよ。
scaffoldの配列を全部取得したいとき
例えば、このようなゲノムファイルがあるとします。
before.fasta
>chr1
AAAGGGTGTCCGTCGT
>chr2
GGTAGTCCCGCGTCAG
>chr3
AAGTCCCTCTCTGACT
ここからchr2の配列を取得したいときは、seqkit grep
が有効です。
seqkit grep -p chr2 before.fna > after.fasta
すると以下のように取得できます。
after.fasta
>chr2
GGTAGTCCCGCGTCAG
seqkit grep
による、ヘッダー抽出方法でした。
scaffoldの配列を一部取得したいとき
before.fasta
のchr2から4番目から8番目の塩基を取得し、以下のafter.fasta
を作成するとします。
after.fasta
>chr2:4-8
AGTCC
# chr2の4番から8番までを抽出
こんな時はseqkit faidx
を使いましょう
seqkit faidx before.fasta chr2:4-8 -o after.fasta
インプットさせるファイル名の後に「scaffold:start-end」を入力することで、その範囲を抽出することができます!!
seqkitが便利すぎるだろ!
使えば使うほど、万能さがわかっていきますね!!
今後も紹介していきます!