はじめに
ここでは、ケモインフォマティクスに不可欠なRDKitについて解説します。
Pythonを用いた基本的な方法についてまとめていきます。
インストールとインポート
RDKitを利用するには、Anacondaをインストールして、conda
でインストールするのが良いでしょう。
$ conda install -c rdkit rdkit
利用するときは、以下のようにインポートします。
from rdkit import Chem
分子の読み込みと書き込み
例えば、SMILESで示された化合物の構造をpngファイルとして保存するには、以下のようにします。
from rdkit import Chem
molecule = Chem.MolFromSmiles(化合物のSMILES)
Chem.Draw.MolToFile(molecule, 'ファイル名.png')
また、molファイルから作成することもできます。
from rdkit import Chem
molecule = Chem.MolFromMolFile(化合物のmolファイル)
Chem.Draw.MolToFile(molecule, 'ファイル名.png')
化合物の記述子の計算
SMILESで読み込んだ化合物の記述子を計算するには、以下のようにします。
from rdkit import Chem
from rdkit.ML.Descriptors import MoleculeDescriptors
smiles_list = [対象化合物のSMILESのリスト]
target_descriptors = []
for desc in Chem.Descriptors.descList:
target_descriptors.append(desc[0]) # descは、記述子名と関連情報のタプルになっている。
print(len(target_descriptors))
print(target_descirptors)
descriptor_calculator = MoleculeDescriptors.MolecularDescriptorCalculator(target_descriptors)
descriptors = []
for smiles in smiles_list:
molecule = Chem.MolFromSmiles(smiles)
descriptors.append(descriptor_calculator.CalcDescriptors(molecule))
print(descriptors)
まとめ
ここでは、PythonでRDKitを利用する方法について解説しました。
この内容が理解できれば、化合物の記述子計算が簡単にできるようになりますよ。