#この記事、何?
後々あれこれしてみたいので、とりあえず化合物ファイルを集めてみた。
#どういう人向け?
・乱数で作ったダミーデータじゃない多件数のデータが欲しい人
(データベースエンジニア向け)
・機械学習の実習がしたくてデータが欲しい人
(Python等の初学者向け)
・KNIME等のソフトがあるけど与えるデータがない人
(ケモインフォマティクスの初学者向け?)
まあ・・・自分が欲しいという話なんですけどね。
#やりたいこと
多件数データが欲しい。
バリエーションが欲しいのでできれば多くのサイトからSDFファイルを集めたい。
目標は3か所以上、300万件以上。
#1か所目
まずはChEMBLから。
■chembl_24_1.sdf.gz 2018-06-18 13:35 546M
http://ftp.ebi.ac.uk/pub/databases/chembl/ChEMBLdb/releases/chembl_24_1/chembl_24_1.sdf.gz
圧縮で546MBなら結構な件数がありそう。
あとで数えてみるけど、150万とかありそう?
#2か所目
で、PubChem。
■PubChem
ftp://ftp.ncbi.nlm.nih.gov/pubchem/Compound/CURRENT-Full/SDF/
・・・多すぎ。ftpを見つけたんだけど、こんな。
07/20/2018 07:36午前 15,190,496 Compound_000000001_000025000.sdf.gz
09/10/2018 10:00午前 14,704,553 Compound_000025001_000050000.sdf.gz
09/06/2018 03:34午後 15,645,365 Compound_000050001_000075000.sdf.gz
06/23/2018 10:59午前 14,682,942 Compound_000075001_000100000.sdf.gz
・・・
09/06/2018 04:42午後 41,458,008 Compound_134725001_134750000.sdf.gz
09/06/2018 04:41午後 41,416,830 Compound_134750001_134775000.sdf.gz
11/06/2018 09:31午前 31,533,216 Compound_134775001_134800000.sdf.gz
11/16/2018 01:52午後 23,565,540 Compound_134800001_134825000.sdf.gz
11/07/2014 12:00午前 1,529 README-Compound-SDF
・・・1億3482万?想定外だ・・・多すぎ。
平均20MBくらいとして、2.5万化合物で20MB。100万で800MB、0.8GB。
その130倍で・・・100GB?いや、これ、圧縮ファイルで、でしょ。
じゃ、先頭100万化合物だけ、ありがたくいただきましょう。
#3か所目
数十万件単位で出しているところ見つけられなかった。
で、行きついたところがこれ。
■Tox21 (2014)
https://tripod.nih.gov/tox21/challenge/data.jsp#
1万件くらい?
#蛇足
AzureのそういうベクトルのURL見つけた。
■テストとプロトタイプ作成用の公開されているデータ セット
https://docs.microsoft.com/ja-jp/azure/sql-database/sql-database-public-data-sets
そういえば見たことあるわ・・・
SDFファイル以外で何かしたかったら見てみる。
#所感を一言
いまいち。
まあ、1億件のデータを置いて何かするような処理は作ってみたいかも。
まあ・・・とりあえず今回のデータ全部を好きに転がせるような状態作ってから考えます。
次、これをDBに突っ込んでどうにかする記事を出します。