RDKitとは
ケモインフォマティクス(cheminformatics: 化学 x 情報学の分野)やマテリアルズ・インフォマティクスで使われるオープンソースのツール。
- 化学分野に特有のファイルであるsdfファイルやSMILES表記の読み書き
- 2D、3Dで分子を描写し、反応性が高い部位などを描画する
- LogPなど分子の各種指標(記述子と呼ばれる)を計算する
など、化学物質を統計的に扱ったり、構造を確認する上で、様々なことができる。
RDKit+Jupyter notebookの環境構築
RDKitは、Pythonで動かすが、通常のライブラリのように、pip installが使えない(→理由)。RDKitの公式サイトでは、Anacondaを使ってそれ専用の環境を用意する方法をすすめているので、基本的にそれに従ってインストールする。
本記事ではさらにJupyter notebook上で、R言語のようにインタラクティブに動かす環境の構築を目指す。Jupyter notebookを使うと、データやライブラリをいちいち読み込まなくていい上に、実行結果を随時確認できるのが便利である。(ただし、画像データを扱うときに一工夫必要な時がある。)
手順
【動作確認OS】Windows 10、MacOS
-
Anacondaを(公式サイト)からダウンロード・インストールする。
-
Anacondaがすでにインストールされている場合には、conda prompt(*Windowsの場合。Macの場合はターミナル上、以下同様。)上で、
$ conda update conda
をして最新の状態にアップデートしておく。 -
conda prompt上で、
$ conda create -c conda-forge -n my-rdkit-env rdkit
と入力して実行。インストール途中で proceed?と聞かれたらy
を入力してEnter。 -
RDKitのインストールが終わったあと、
$ conda activate my-rdkit-env
とすると、RDKitが動く環境がアクティベートされる(プロンプト上に(my-rdkit-env)の文字が表示される)。 -
上記の状態で、
$ conda install notebook ipykernel
と入力して実行し、my-rdkit-env環境の中にJupyter notebookをインストールする。 -
続けて、
$ipython kernel install --user --name my-rdkit-env
とすると、Jupyter notebookのkernelに、作成した”my-rdkit-env”環境が追加される(再起動すると表示されるようになる)。 -
Jupyter notebookを開いている場合にはいったん終了する。conda promptを閉じ、Anacondaを終了する。
テスト:SMILESから構造式を描写してみよう!
-
Jupyter notebookを開く。conda promptで
$jupyter notebook
と入力すると、WebブラウザでJupyter notebookの画面が立ち上がる。
-
右上の「新規」からプルダウンでmy-rdkit-envをクリックする。
-
ファイルを開いたら、セルに以下を入力する。
from rdkit import Chem
m = Chem.MolFromSmiles('COC(=O)c1ccccc1O')
m
入力したセルを実行する(Shift+Enter)と、以下の出力が得られる。
もっと色々な機能を試したい人は...。
有志の方が公式ドキュメントを日本語に翻訳してくれています。順に試してみましょう。
https://rdkit.org/docs_jp/Getting_Started_with_RDKit_in_Python_jp.html