なにこれ
英国王立化学会(RSC)が主催するシンポジウムのポスターに興味深い記事があったので読んでみた主に自分向けの記録。
以下、こちらのポスターを翻訳しています。図を貼るのがめんどいので、これを見ながら読んでけさい。
英語力がガバいので変な翻訳しているかも。時間をかけて見直していきます。
忙しい人のための超要約
構造活性相関の前提になっている原則を無視するような官能基の組み合わせとかアッセイ結果が実はけっこうあるっぽいのでモデル作ったり予測するときには気をつけようね
Abstract
「線形性」と「加算性」は量的構造活性相関(QSAR)モデリングにおいて基礎となる仮定(前提)である。Free-WilsonやMatched molecular pairs(MMP)といった手法は、置換基の線形性および加算性を前提としている。こうした前提ゆえに、未知の化合物に対する予測は信頼できるものとなりうるのである。
しかしながら、それぞれ単一で変更を加えた場合に想定よりもはるかに高い/低い活性をもたらす2つの官能基の組み合わせのような「SARにおける非加算性」はたびたび観測され、未知の化合物に対するSARを予測する際に問題となりうる。
ということで、我々は ChEMBLE25をベースとしたスケールの大きな生理活性データと、アストラゼネカの社内アッセイデータにおける非加算性の発生事情を分析した。結果、社内データ内の二次アッセイデータと、公共データ内の三次アッセイデータの両方において重大な非加算性が見受けられた。加えて、アストラゼネカのデータベースに含まれる全化合物の9%およびChEMBLに含まれる全化合物の5%は、重要な構造活性相関の特徴か、基本的な測定誤差を暗示するような有意な非加算性シフト?を示している。
最後に、非加算性が機械学習アルゴリズムやそれらの予測結果にどれほど影響を及ぼすかを示す。
Introduction
構造活性相関の基礎となる基本原則:類似性、線形性、そして加算性
- 類似性:類似する化合物は類似した生理活性を示しやすい(という原則)
- 線形性:化学者たちがR基の最適化を繰り返している最中に見込まれるもの。この戦略は「ベストなR1基は、分子内の他のR基から独立して最も良好である」ものと想定している。線形性は、異なる置換基による影響はおそらくプラスされ増えていく=加算性が成り立つだろう、ことをほのめかす
- 類似性と加算性の原則は、例えばFree-Wilson分析や2D/3D QSARあるいはMMP分析などのCADD(Computer aided drug design)における数々の確立された領域の基礎となっている
Methods and Data Prepatation
- 非加算性(Non-additivity, NA)は化学的二重変異体サイクルにより定義される:すなわち、2つの同一な変換と関連している4つの分子において、以下の式で表される。
- Non-additivity = ΔΔpAct = (ΔpAct2 - ΔpAct1) - (ΔpAct4 - ΔpAct3)
- NA分析はオープンソースのコードを用いて行われた。
- 生物学的データの実験的不確かさ(Experimental uncertainty)はin silicoの予測モデル性能に直で影響を及ぼす
- pAct(exp) = pAct(true) + ε
- 実験的不確かさを考慮し、公共データについては0.5、社内データについては0.3を閾値としてNA判定する?
- データキュレーションは以下の通りに実施。
Results
非加算性分析
- ほとんどの非加算性は実験的不確かさということでで説明できる。
- 23.9% / 9.1%の試験データ、9.3% / 5.1%の化合物は明らかな非加算性が見受けられた
- 社内データ / 公共データ
機械学習に対する非加算性の影響
- 明らかな非加算性を示すデータに対しては正確な予測ができない。
- 非加算性を示すデータを含んだ学習を行うとモデル性能は向上しない。
Conclusion
- 公共データにも社内データにも、相応の数の非加算性をもつ化合物が見つけられた。これらは日頃のモデリングにおいて常に考慮される必要がある。
- ChEMBLE データは(社内データに比べて)NAが少なかった。理由としては、cpds/testの少なさか、実験的不確かさのカットオフの違いなのでは?
- (CPDS ってなんだ...?)
- 非加算性を有したデータは機械学習において正しく予測することは難しい。そのため、非加算性分析は機械学習モデルをトレーニングする際に定期的に考慮されるべきである(それが現状グッドプラクティスとして推奨されていなかったとしても)。
おわりに
2Dフィンガープリントみたいに平面的で局所的な構造しか捉えられない特徴量だけで活性予測するとか無茶くね?そんな単純な問題じゃないよね?...とモヤモヤしてたので、今回のポスターはそんなモヤモヤに対する1つの答えになったのかなと感じました。ChEMBL使って自分で検証もできそうなので、時間があれば試してみたい。