PictBio HP「解析メモ」から移行中です。
元記事:2018/11/21 公開 ゲノムのサイズ感をつかむ
今回は検証を行ってみました。NCBIに登録されているゲノムの一覧をとってきて、Taxonomy のランクごとにサイズを見てみます。使用したゲノムの一覧は NCBI のデータがある FTP の「Genome」フォルダからとってきました。
overview.txt (取得ファイルの更新日時 2018/11/20 21:48:00)
ftp://ftp.ncbi.nlm.nih.gov/genomes/GENOME_REPORTS/
このファイルから「Kingdom」「Group」「SubGroup」毎に、最小値、最大値を取得しました。結果はそれぞれ以下の通りです。
Kingdom で集計
ログスケールですが、Viruses と Eukaryota のサイズの幅広さを感じます。
Group で集計
SubGroup で集計
エクセルだとデータサイズの制限や、計算が遅いのでスクリプト言語でプログラムを作成して集計してみました。弊社ではこういった簡単なプログラムがサービス内で必要になった場合は、カスタムさせていただいております。