はじめに
さて、DeepChemをインストールしてこれからDeepLearningしよう!と思うところまでは
いいのですが、次に悩むのはどのデータを用いて予測モデルを作成するかです。
公開されているデータを使うとして、どれを使うか、そのデータを使って作成した予測モデルの
精度がどの程度よいのか、といったことに悩むと思います。
色々調べたところ、MoleculeNetというベンチマークが公開されていることがわかりました。
MoleculeNetとは
ざっくり説明するとこんな感じです。
- 分子機械学習のための大規模ベンチマークである。
- いくつかの公開データセットを整理し、評価のための測定基準を確立し、これまでに提案されている分子の特徴化、学習アルゴリズムについて高品質なオープンソース実装を提供。
- 実装はDeepChemの一部として提供されます。
どんな公開データセットを使っているか
以下のデータが用いられている
- Quantum MechanicsからQM7, QM7b, QM8, QM9
- Physical ChemistoryからESOL、Lipophilicity, FreeSolv
- BiophysicsからHIV, PCBA, PDBbind, MUV, BASE
- PhysiologyからBBBP, Tox21, Toxcast, SIDER, ClinTox
どんな特徴が使われているか
以下の特徴が使われている。
- ECFP
- Coulomb Matrix
- Grid Featurizer
- Symmetory Function
- Graph Convoluations
- Weav
どんな予測手法(モデルが使われているか)
- Logistic回帰
- SVM
- カーネルリッジ回帰
- ランダムフォレスト
- 勾配ブースティング
- Multitask/Singletask Network
- Bypass Multitask Networks
- Influcence Relevance Voting
- Graph Convolutional method
- Weave
- Directed Acyclic Graph Model
- Deep Tensor Neural Networks
- ANI-1
- Message Passing Neural Networks
Molecule Netのデータはどうやって得られるの?
さて、DeepChemに含まれているのであれば、それを使ってモデルを作ればいいですね。
ただ他の手法でも使いたいので、それだけ使えるデータがほしいですよね。
あがたいことにデータをまとめて、Gibhubに公開してくれている人がいました!