【Bash】ファイルの文字列を分割し、条件を満たす文字列のみを出力する方法
Q&A
Closed
解決したいこと
題名の通りです。具体的には、下記のようなファイルがあったときに>
で分割し、ヘッダー部分(>America/NICD-N20214/2021
)が一致するものを出力したいです。
示したのは一例で、使うときには任意のヘッダー部分に対して出力ができるようなものであると助かります。
>South Africa/NICD-N23184/2021
AGATCTGTTCTCTAAACGAA
CTTTAAAATCTGTGTGGCTG
TCACTCGGCTGCATGCTT
>America/NICD-N20213/2021
AAATCTGTGTGGCTGAGATC
TGTTCTCTAAACGAACTTTA
TCACTCGGCTGCATGCTTAG
TGTTCTCTAA
>America/NICD-N20214/2021
CTTTAAAAGATCTGTTCTCT
AAACGAAATCTGTGTGGCTG
TCACTCGGCTGCATGC
>Oceania/NICD-A21344/2021
TGTTCTCTAAACGAACTTTA
AAAGATCATCTGTGTGGCTG
TCAC
...(200万件程度)
↓
>America/NICD-N20214/2021
CTTTAAAAGATCTGTTCTCT
AAACGAAATCTGTGTGGCTG
TCACTCGGCTGCATGC
自分で試したこと
pythonのwith openで読み込もうとしたのですが、ファイルが69GBあり、メモリ128GBのサーバで読み込むこともきませんでした。bashでやれば動くかなと思い、質問させていただきました。
0