FASTAファイルをダウンロードすると、
>GENENAME
ACGTACGTACGTACGTACGTACGTACGTACGTACGTACGT
ACGTACGTACGTACGTACGTACGTACGTACGTACGTACGT
ACGTACGTACGTACGTACGT
というかたちで改行がついてきてしまう。このままだと扱いにくいため、遺伝子名を残したまま改行を取り去るワンライナー
FASTA.faをcatでsedに渡す
cat FASTA.fa
>で始まる行の文末だけ<を付加する
sed -e '/^>/s/$/</g'
すべての改行コード(この場合\n)を消す
tr -d "\n"
>を\n>(改行コードと>)で置換する
sed -e 's/>/\n>/gp'
目的遺伝子(GENEOFINTEREST)を含む行のみ取り出し、<を\n(改行コード)に置換する
sed -n -E '/GENEOFINTEREST* /s/</\n/gp
これらをパイプで繋いで
cat FASTA.fa | sed -e '/^>/s/$/</g' | tr -d "\n" | sed -e 's/>/\n>/gp' | sed -n -E '/GENEOFINTEREST/s/</\n/gp' > output.txt