LoginSignup
0
0

More than 1 year has passed since last update.

NCBIのGenome assemblyから元となったSRAデータのBioProject IDを取得する

Posted at

entrez direct インストール

EntrezにLinuxっぽいコマンドを使ってアクセスできる様になる。

色々手法が出ているけど、そんなに大変でないので直接ftpでバイナリをとってきて、
パスを通すのが良いと思う(2021/09/22現在)
うっかりforとかで回すと、IP(研究機関)ごと遮断されかねないので、注意して使うこと。

perl -MNet::FTP -e '$ftp = new Net::FTP("ftp.ncbi.nlm.nih.gov", Passive => 1); 
$ftp->login; 
$ftp->binary; 
$ftp->get("/entrez/entrezdirect/edirect.tar.gz");'

IDに対応するBioProjectを取得

以下のコードのID部分を変更するとProjectIDがとれるのでそれを使う。

esearch -db assembly \
 -query "ID_A OR ID_B" | \
efetch -format docsum | \
xtract -pattern DocumentSummary -element AssemblyAccession BioprojectAccn

esearch \
-db assembly  \
-query "GCA_015500005.1 OR GCA_015679545.1 OR GCA_015849335.1" | \
efetch -format docsum | \
xtract -pattern DocumentSummary -element AssemblyAccession BioprojectAccn
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0