化合物を300万個目指していっぱい集めてみた


この記事、何?

後々あれこれしてみたいので、とりあえず化合物ファイルを集めてみた。


どういう人向け?

・乱数で作ったダミーデータじゃない多件数のデータが欲しい人

(データベースエンジニア向け)

・機械学習の実習がしたくてデータが欲しい人

(Python等の初学者向け)

・KNIME等のソフトがあるけど与えるデータがない人

(ケモインフォマティクスの初学者向け?)

まあ・・・自分が欲しいという話なんですけどね。


やりたいこと

多件数データが欲しい。

バリエーションが欲しいのでできれば多くのサイトからSDFファイルを集めたい。

目標は3か所以上、300万件以上。


1か所目

まずはChEMBLから。

■chembl_24_1.sdf.gz 2018-06-18 13:35 546M

http://ftp.ebi.ac.uk/pub/databases/chembl/ChEMBLdb/releases/chembl_24_1/chembl_24_1.sdf.gz

圧縮で546MBなら結構な件数がありそう。

あとで数えてみるけど、150万とかありそう?


2か所目

で、PubChem。

■PubChem

ftp://ftp.ncbi.nlm.nih.gov/pubchem/Compound/CURRENT-Full/SDF/

・・・多すぎ。ftpを見つけたんだけど、こんな。

07/20/2018 07:36午前 15,190,496 Compound_000000001_000025000.sdf.gz

09/10/2018 10:00午前 14,704,553 Compound_000025001_000050000.sdf.gz

09/06/2018 03:34午後 15,645,365 Compound_000050001_000075000.sdf.gz

06/23/2018 10:59午前 14,682,942 Compound_000075001_000100000.sdf.gz

・・・

09/06/2018 04:42午後 41,458,008 Compound_134725001_134750000.sdf.gz

09/06/2018 04:41午後 41,416,830 Compound_134750001_134775000.sdf.gz

11/06/2018 09:31午前 31,533,216 Compound_134775001_134800000.sdf.gz

11/16/2018 01:52午後 23,565,540 Compound_134800001_134825000.sdf.gz

11/07/2014 12:00午前 1,529 README-Compound-SDF

・・・1億3482万?想定外だ・・・多すぎ。

平均20MBくらいとして、2.5万化合物で20MB。100万で800MB、0.8GB。

その130倍で・・・100GB?いや、これ、圧縮ファイルで、でしょ。

じゃ、先頭100万化合物だけ、ありがたくいただきましょう。


3か所目

数十万件単位で出しているところ見つけられなかった。

で、行きついたところがこれ。

■Tox21 (2014)

https://tripod.nih.gov/tox21/challenge/data.jsp#

1万件くらい?


蛇足

AzureのそういうベクトルのURL見つけた。

■テストとプロトタイプ作成用の公開されているデータ セット

https://docs.microsoft.com/ja-jp/azure/sql-database/sql-database-public-data-sets

そういえば見たことあるわ・・・

SDFファイル以外で何かしたかったら見てみる。


所感を一言

いまいち。

まあ、1億件のデータを置いて何かするような処理は作ってみたいかも。

まあ・・・とりあえず今回のデータ全部を好きに転がせるような状態作ってから考えます。

次、これをDBに突っ込んでどうにかする記事を出します。