LoginSignup
1
1

[ゲノム解析] マルチFASTAから任意の配列を切り取ろう

Last updated at Posted at 2022-08-10

FASTAファイルから配列を切り取りたい!!

マルチFASTAから特定のscaffold中の配列と抽出したい!
そんな時ありますよね。その場合、seqkitが便利ですよ。

scaffoldの配列を全部取得したいとき

例えば、このようなゲノムファイルがあるとします。

before.fasta
>chr1
AAAGGGTGTCCGTCGT
>chr2
GGTAGTCCCGCGTCAG
>chr3
AAGTCCCTCTCTGACT

ここからchr2の配列を取得したいときは、seqkit grepが有効です。

seqkit grep -p chr2 before.fna > after.fasta

すると以下のように取得できます。

after.fasta
>chr2
GGTAGTCCCGCGTCAG

seqkit grepによる、ヘッダー抽出方法でした。

scaffoldの配列を一部取得したいとき

before.fastaのchr2から4番目から8番目の塩基を取得し、以下のafter.fastaを作成するとします。

after.fasta
>chr2:4-8
AGTCC
# chr2の4番から8番までを抽出

こんな時はseqkit faidxを使いましょう

seqkit faidx before.fasta chr2:4-8 -o after.fasta

インプットさせるファイル名の後に「scaffold:start-end」を入力することで、その範囲を抽出することができます!!

seqkitが便利すぎるだろ!

使えば使うほど、万能さがわかっていきますね!!
今後も紹介していきます!

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1