3
8

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

化合物を300万個目指していっぱい集めてみた

Last updated at Posted at 2018-11-17

#この記事、何?

後々あれこれしてみたいので、とりあえず化合物ファイルを集めてみた。

#どういう人向け?

・乱数で作ったダミーデータじゃない多件数のデータが欲しい人
(データベースエンジニア向け)
・機械学習の実習がしたくてデータが欲しい人
(Python等の初学者向け)
・KNIME等のソフトがあるけど与えるデータがない人
(ケモインフォマティクスの初学者向け?)

まあ・・・自分が欲しいという話なんですけどね。

#やりたいこと
多件数データが欲しい。
バリエーションが欲しいのでできれば多くのサイトからSDFファイルを集めたい。
目標は3か所以上、300万件以上。

#1か所目
まずはChEMBLから。

■chembl_24_1.sdf.gz 2018-06-18 13:35 546M
http://ftp.ebi.ac.uk/pub/databases/chembl/ChEMBLdb/releases/chembl_24_1/chembl_24_1.sdf.gz

圧縮で546MBなら結構な件数がありそう。
あとで数えてみるけど、150万とかありそう?

#2か所目
で、PubChem。

■PubChem
ftp://ftp.ncbi.nlm.nih.gov/pubchem/Compound/CURRENT-Full/SDF/

・・・多すぎ。ftpを見つけたんだけど、こんな。

07/20/2018 07:36午前 15,190,496 Compound_000000001_000025000.sdf.gz
09/10/2018 10:00午前 14,704,553 Compound_000025001_000050000.sdf.gz
09/06/2018 03:34午後 15,645,365 Compound_000050001_000075000.sdf.gz
06/23/2018 10:59午前 14,682,942 Compound_000075001_000100000.sdf.gz
・・・
09/06/2018 04:42午後 41,458,008 Compound_134725001_134750000.sdf.gz
09/06/2018 04:41午後 41,416,830 Compound_134750001_134775000.sdf.gz
11/06/2018 09:31午前 31,533,216 Compound_134775001_134800000.sdf.gz
11/16/2018 01:52午後 23,565,540 Compound_134800001_134825000.sdf.gz
11/07/2014 12:00午前 1,529 README-Compound-SDF

・・・1億3482万?想定外だ・・・多すぎ。
平均20MBくらいとして、2.5万化合物で20MB。100万で800MB、0.8GB。
その130倍で・・・100GB?いや、これ、圧縮ファイルで、でしょ。

じゃ、先頭100万化合物だけ、ありがたくいただきましょう。

#3か所目

数十万件単位で出しているところ見つけられなかった。
で、行きついたところがこれ。

■Tox21 (2014)
https://tripod.nih.gov/tox21/challenge/data.jsp#

1万件くらい?

#蛇足
AzureのそういうベクトルのURL見つけた。

■テストとプロトタイプ作成用の公開されているデータ セット
https://docs.microsoft.com/ja-jp/azure/sql-database/sql-database-public-data-sets

そういえば見たことあるわ・・・
SDFファイル以外で何かしたかったら見てみる。

#所感を一言
いまいち。
まあ、1億件のデータを置いて何かするような処理は作ってみたいかも。
まあ・・・とりあえず今回のデータ全部を好きに転がせるような状態作ってから考えます。
次、これをDBに突っ込んでどうにかする記事を出します。

3
8
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
8

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?