創薬AI初心者です。今の知識で理解できる範囲で、この論文を要約します。
Generating Focussed Molecule Libraries for DrugDiscovery with Recurrent Neural Networks
Matt Hoffman, David M. Blei, Chong Wang, John Paisley
基礎知識
その前に、創薬に関する専門用語が多くて、このままでは論文が読めないので、とりあえず目についた単語を調べておきます。
deno-vo創薬
既知の活性化合物の情報に頼ることなく、一から化合物を設計することをde novo デザインと呼びます。
http://img.jp.fujitsu.com/downloads/jp/jlife/OPMF_20100525.pdf
だそうです。
リガンド
リガンド(ligand; ライガンド)とは、特定の受容体(receptor; レセプター)に特異的に結合する物質のことである。
リガンドが対象物質と結合する部位は決まっており、選択的または特異的に高い親和性を発揮する。例えば、酵素タンパク質とその基質、ホルモンや神経伝達物質などのシグナル物質とその受容体などが顕著な例である。
https://ja.wikipedia.org/wiki/%E3%83%AA%E3%82%AC%E3%83%B3%E3%83%89
smiles記法
SMILES記法(スマイルスきほう、英語: simplified molecular input line entry system)とは、分子の化学構造をASCII符号の英数字で文字列化した、構造の曖昧性の無い表記方法である。SMILES文字列は多くの種類の分子エディタにおいてインポート可能で、二次元の図表あるいは三次元のモデルとして表示することができる。
https://ja.wikipedia.org/wiki/SMILES%E8%A8%98%E6%B3%95
文字列でグラフを表現しているようです。
では要約に移ります。
0. 論文
Generating Focussed Molecule Libraries for DrugDiscovery with Recurrent Neural Networks
Matt Hoffman, David M. Blei, Chong Wang, John Paisley
1. どんなもの?
rnnを使ったde-novo創薬モデル。generativeモデルと同等の結果が出せた。
2. 先行研究と比べてどこがすごい?
de-novo創薬では、合成が困難な化合物候補を出力してしまうことが問題の一つであった。
既存の分子データを学習したrnnモデルを利用することで、合理的な分子構造を生成することを可能にした。(targetとは無関係な)大量の分子データで学習したあとに、既知の活性物質を使って転移学習することで、targetに適合する新しい化合物を生成できる。
3. 技術や手法のキモはどこ?
リガンド候補を生成するまでに、事前学習/転移学習/フィルタリングの三段階がある。
事前学習と転移学習に使うrnnモデルはこんな感じで、smilis記法で表現した教師データを使い, 新たな化合物を生成する。
以下の多項式分布から$s_{t+1}$をサンプリングしているので、予測ごとに出力結果はことなる。(最も確率の高い文字を選ぶと, 最初の文字が同じなら出力も毎回一緒になる)。 $s_i$はSequentialの中のi番目の出力。
大規模データセットで事前学習したのち、リガンドのターゲットにモデルを特化させるために、特定の少量の(少量しか手に入らないことが多い)化合物のみを対象として、転移学習を行う。
転移学習を行ったあとは、生成された化合物候補たちをtargetに適合するかフィルタリングにかける。
フィルタリングは、TPMs(target prediction model)を使う。TPMsはtargetに対して活性か非活性かを判定する2値分類器で、Random Forest/ Logistic Regression/ (Deep) Neural Networks/ Gradient Boosting Tree(GBT)などが試されている。最も制度が高かったのは、GBTだったとのこと。
4. どうやって有効だと検証した?
5-HT2A receptorのリガンド
5-HT2A receptorのリガンドを生成するために、 all molecules with pIC50> 7 whichwere tested on 5-HT2Afrom ChEMBL (732 molecules で事前学習済みのモデルを, fine-tuningした。その後、100,000のサンプルを作成し、training-dataに含まれている分子は取り除いた。最後にtarget prediction modelで評価した。fine-tuning前は生成した分子のほとんどがinactiveな分子だったが、fine-tuningを4epoch回したあとは50%ほどの確率でactiveな分子を生成するようになった。
マラリア原虫(マラリアの原因となる寄生虫)のリガンド
(追記します)
黄色ブドウ球菌のリガンド
(追記します)
5. 議論はある?
existing de-novo design methods settled on virtual re-actions to generate molecules に比べて過学習しやすい? (このあたりは他の論文も読まないと理解が難しそうです)
6. 次に読むべき論文は?
Convolutional Networks on Graphs for Learning Molecular Fingerprints