はじめに
PubChemは代表的な化合物データベースです。
ここでは、PythonでPubChemのデータを検索する方法を解説します。
化合物IDや化合物名を検索
化合物名で検索し、検索結果として得られたレコードのCIDやIUPAC名を取得したい場合は、get_compounds
メソッドが使えます。
import pubchempy as pcp
glycine_pubchem = pcp.get_compounds('glycine', 'name')
result = {}
for record in glycine_pubchem:
result[record.cid] = record.iupac_name
print(result)
上の例では、辞書result
のキーにCIDが、値としてIUPA名が格納されます。
物性値や構造情報を取得
分子量やCanonical SMILESなどの情報を取得したい場合には、get_properties
メソッドが使えます。
import pubchempy as pcp
target_properties = ['MolecularFormula', 'MolecularWeight', 'CanonicalSMILES']
result = pcp.get_prpperties(target_properties, 'glycine', 'name')
print(result)
上の例では、取得したい物性情報をリストとして、get_properties
メソッドに渡しています。
まとめ
ここでは、PythonでPubChemのデータにアクセスする方法について解説しました。
PubChemPy
を使えば、PubChemに格納されている情報を簡単に利用することができます。
ケモインフォマティクスに不可欠なツールなので、是非使えるようになっておきましょう。