search
LoginSignup
1

More than 5 years have passed since last update.

posted at

updated at

FASTAファイルの整形

FASTAファイルをダウンロードすると、

>GENENAME
ACGTACGTACGTACGTACGTACGTACGTACGTACGTACGT
ACGTACGTACGTACGTACGTACGTACGTACGTACGTACGT
ACGTACGTACGTACGTACGT

というかたちで改行がついてきてしまう。このままだと扱いにくいため、遺伝子名を残したまま改行を取り去るワンライナー

FASTA.faをcatでsedに渡す

cat FASTA.fa

>で始まる行の文末だけ<を付加する

sed -e '/^>/s/$/</g'

すべての改行コード(この場合\n)を消す

tr -d "\n" 

>を\n>(改行コードと>)で置換する

sed -e 's/>/\n>/gp'

目的遺伝子(GENEOFINTEREST)を含む行のみ取り出し、<を\n(改行コード)に置換する

sed -n -E '/GENEOFINTEREST* /s/</\n/gp

これらをパイプで繋いで

cat FASTA.fa | sed -e '/^>/s/$/</g' | tr -d "\n" | sed -e 's/>/\n>/gp' | sed -n -E '/GENEOFINTEREST/s/</\n/gp' > output.txt

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
What you can do with signing up
1