はじめに
in silico 創薬で標的とよく結合する化合物を見つけても、実際に合成することが難しいものは避けたい。だからといって、候補化合物すべてを合成化学者に確認してもらうのはハードである。
そこで、wet に移る前に候補化合物の中から合成しやすいものだけを選り好みしたい。
そこで有用なのが、RDKit で使える SAscore という指標である 1。
結果から言うと
- 平均:3.5
- 中央値:3.1
SAscore を目安にして候補化合物を絞る際の参考になれば。
前処理
- 日本で 2020-04-07 現在製造販売されている医療用医薬品
- KEGG DRUG に書いてある、D number の振られた医薬品(2826 種・重複あり)
- 主たるフラグメントの合成容易性を見たいので脱塩
- @yamasakih さんの desalt.py をお借りしました 2
- SAscore を計算
計算
今回は、炭素数 2 以上の化合物に絞る。
また、合剤、薬効を持たないもの、血液製剤・抗体医薬品・生薬などは主旨に沿わないため除外する。この時点の絞り込みで 1641 化合物である。
複数の薬効に分類されているものは重複しているため、それを削除して 1436 化合物である。そのヒストグラムが上述したものになる。
mean | std | min | 25% | 50% | 75% | max |
---|---|---|---|---|---|---|
3.472627 | 1.262086 | 1.054917 | 2.547814 | 3.14387 | 4.190424 | 9.129873 |
薬効分類で分けてみる
全体としての分布は上で分かった。せっかく薬効分類の情報もあるしそれぞれで違いがあるのか見てみる。
ここでは、重複を削除していない 1641 化合物を元に計算する。
神経系及び感覚器官用医薬品
さらに、中枢神経系用薬・末梢神経系用薬・感覚器官用薬・その他に分類される。
医薬品としては、メマンチンやバクロフェンなどが属する。
count | mean | std | min | 25% | 50% | 75% | max |
---|---|---|---|---|---|---|---|
401 | 3.074675 | 1.066451 | 1.407299 | 2.368182 | 2.79175 | 3.496406 | 8.224301 |
個々の器官系用医薬品
さらに、循環器官用薬・呼吸器官用薬・消化器官用薬・ホルモン剤・泌尿生殖器官及び肛門用薬・外皮用薬・歯科口腔用薬・その他に分類される。
医薬品としては、オルメサルタンやエソメプラゾールなどが属する。
count | mean | std | min | 25% | 50% | 75% | max |
---|---|---|---|---|---|---|---|
567 | 3.436648 | 1.211883 | 1.176561 | 2.556412 | 3.073396 | 4.338626 | 9.129873 |
代謝性医薬品
さらに、ビタミン剤・滋養強壮薬・血液体液用薬・人工透析用薬・その他に分類される。
医薬品としては、プラスグレルやカナグリフロジンなどが属する。
count | mean | std | min | 25% | 50% | 75% | max |
---|---|---|---|---|---|---|---|
196 | 3.562633 | 1.263028 | 1.58004 | 2.774178 | 3.307104 | 4.199926 | 9.121023 |
組織細胞機能用医薬品
さらに、細胞賦活用薬・腫瘍用薬・放射性医薬品・アレルギー用薬・その他に分類される。
医薬品としては、イリノテカンやセチリジンなどが属する。
count | mean | std | min | 25% | 50% | 75% | max |
---|---|---|---|---|---|---|---|
191 | 3.608295 | 1.438333 | 1.694618 | 2.641493 | 3.066941 | 4.15542 | 7.705978 |
生薬及び漢方処方に基づく医薬品
該当なし。
病原生物に対する医薬品
さらに、抗生物質製剤・化学療法剤・生物学的製剤・寄生動物用薬・その他に分類される。
医薬品としては、ラニナミビルやリファンピシンなどが属する。
count | mean | std | min | 25% | 50% | 75% | max |
---|---|---|---|---|---|---|---|
201 | 4.159825 | 1.384663 | 1.762741 | 3.202318 | 3.992249 | 4.690629 | 8.214511 |
治療を主目的としない医薬品
さらに、調剤用薬・診断用薬・公衆衛生用薬・体外診断用医薬品・その他に分類される。
医薬品としては、アデノシンやエドロホニウムやなどが属する。
count | mean | std | min | 25% | 50% | 75% | max |
---|---|---|---|---|---|---|---|
70 | 3.336593 | 1.027391 | 1.054917 | 2.544872 | 3.402247 | 3.976367 | 5.783386 |
麻薬
さらに、アルカロイド系麻薬・非アルカロイド系麻薬・その他に分類される。
count | mean | std | min | 25% | 50% | 75% | max |
---|---|---|---|---|---|---|---|
15 | 3.747792 | 1.351973 | 1.977279 | 2.541722 | 3.994829 | 5.00452 | 5.273602 |
分類間で有意差はあるのか
各 2 群間で Welch の t 検定でやってみた。
p-value | 神経・感覚器 | 各器官 | 代謝 | 組織細胞 | 病原生物 | 非治療 | 麻薬 |
---|---|---|---|---|---|---|---|
神経・感覚器 | - | 0.000 | 0.000 | 0.000 | 0.000 | 0.053 | 0.076 |
各器官 | 0.000 | - | 0.225 | 0.140 | 0.000 | 0.453 | 0.392 |
代謝 | 0.000 | 0.225 | - | 0.740 | 0.000 | 0.140 | 0.615 |
組織細胞 | 0.000 | 0.140 | 0.740 | - | 0.000 | 0.093 | 0.707 |
病原生物 | 0.000 | 0.000 | 0.000 | 0.000 | - | 0.000 | 0.272 |
非治療 | 0.053 | 0.453 | 0.140 | 0.093 | 0.000 | - | 0.281 |
麻薬 | 0.076 | 0.392 | 0.615 | 0.707 | 0.272 | 0.281 | - |
平均値が神経・感覚器用医薬品は他より合成しやすく、抗生剤・化学療法薬・抗アレルギー薬は合成しにくい、という傾向にあると考えられる。
感想
- Pandas のいい練習になった
- 標的のタイプ 3 でも群間比較してみたい
- 誤りなど指摘あればコメントください
-
Ertl, P., Schuffenhauer, A. Estimation of synthetic accessibility score of drug-like molecules based on molecular complexity and fragment contributions. J Cheminform 1, 8 (2009). https://doi.org/10.1186/1758-2946-1-8 (Open Access)
RDKit では rdkit/Contrib/SA_Score にある。使い方は化学の新しいカタチさんが分かりやすく解説した記事がある。 ↩ -
解説;raziのDocker-composeで創薬レイドバトル2018用のJupyter Notebookからアクセスできる化合物データベースを作った話 - Qiita ↩