entrez direct インストール
EntrezにLinuxっぽいコマンドを使ってアクセスできる様になる。
色々手法が出ているけど、そんなに大変でないので直接ftpでバイナリをとってきて、
パスを通すのが良いと思う(2021/09/22現在)
うっかりforとかで回すと、IP(研究機関)ごと遮断されかねないので、注意して使うこと。
perl -MNet::FTP -e '$ftp = new Net::FTP("ftp.ncbi.nlm.nih.gov", Passive => 1);
$ftp->login;
$ftp->binary;
$ftp->get("/entrez/entrezdirect/edirect.tar.gz");'
IDに対応するBioProjectを取得
以下のコードのID部分を変更するとProjectIDがとれるのでそれを使う。
esearch -db assembly \
-query "ID_A OR ID_B" | \
efetch -format docsum | \
xtract -pattern DocumentSummary -element AssemblyAccession BioprojectAccn
例
esearch \
-db assembly \
-query "GCA_015500005.1 OR GCA_015679545.1 OR GCA_015849335.1" | \
efetch -format docsum | \
xtract -pattern DocumentSummary -element AssemblyAccession BioprojectAccn