はじめに
こんにちは、@sasshi_iです。
ケモインフォマティクスの分野では、化合物の構造を計算機に入力するため様々な表現方法があります。
今回は文字列で分子構造を表現するSMILESについて紹介します。
SMILESとは?
概要
SMILES(Simplified Molecular Input Line Entry System)は、分子の構造を表現するために文字列を使用する表記法です。
1980年代に開発されたこの表記法は、分子や化学反応をコンピュータプログラムに簡単に入力し、保存するために広く使用されています。
例えば、解熱鎮痛薬のバファリンの成分であるアスピリンはSMILESだと CC(=O)Oc1ccccc1C(=O)O
と表現されます。
SMILESはrdkitを用いてプログラムに入力できます。
rdkitはケモインフォマティクスの分野で広く使用されるpythonのライブラリです。
from rdkit import Chem
Chem.MolFromSmiles('CC(=O)Oc1ccccc1C(=O)O')
それでは、SMILESがどのような文法で化合物を表現しているか説明していきたいと思います。
基本規則
SMILESは下記のルールに則って分子構造を表現します。
- 原子は原子記号により表示(ex. 炭素はC, 水素はHなど)。2文字の元素で紛らわしいもの(NbとNBなど)は[Nb]のように囲む
- 水素原子は基本的に省略する
- 隣り合う原子は互いに隣り合うように書く
- 単結合は省略する
- 二重結合は"="、三重結合は"#"で表す
- 分岐は括弧により表示する
- 環は接続している2つの原子に数値を割る当てることによって記述
- 芳香族部分構造は、関係する原子を全て小文字で表記する
- イオンなどの結合のない部分同士は「.」で分ける
上記のルールだけだとわかりにくいと思うので、具体例を示します。
立体異性体の表現
化合物には 立体異性体と呼ばれる関係の化合物が存在します。立体異性体は分子式と原子間の結合パターンが同じだが、空間的な配置が異なる化合物のことです。
立体異性体は、さらに幾何異性体と鏡像異性体に分けられます。
幾何異性体
幾何異性体とは
幾何異性体とは、特定の結合周りの原子の相対的な位置が異なるために生じる異性体です。
例えば、1,2-ジブロモエチレンは分子式で表すとCH2Br2
です。
しかし、臭素(Br)が二重結合の炭素で反対方向に結合しているものがtrans-1,2-ジブロモエチレン、同じ方向に結合しているものをcis-1,2-ジブロモエチレンと呼び、異なる化合物になります。
このように、特定の結合周りの原子の相対的な位置が異なる化合物を幾何異性体(シス-トランス異性体)と呼びます。
幾何異性体のSMILES表記
幾何異性体は/
と\
を用いて表現します。
先ほどのtrans-1,2-ジブロモエチレンはBr\C=C\Br
、cis-1,2-ジブロモエチレンはBr/C=C\Br
と表現します。
鏡像異性体
鏡像異性体とは
鏡像異性体とは、鏡に映したように左右が逆になった関係の化合物です。
右手と左手のように左右逆の作りになっているイメージです。親指や人差し指などついている指は同じですが、右手と左手は重ね合わせることができません。
なお、化合物表記中のくさび形の太線は平面より上に飛び出ていることを表しています。また、破線は平面より下に出ていることを表します。
今見ているPCの画面を平面と捉えると、くさび形の太線は画面より前に飛び出ていることを表します。
破線は画面より奥に飛び出ていることを表します。
鏡像異性体のSMILES表記
鏡像異性体は@
と@@
を用いて表現します。
例えば、アミノ酸の1種のアラニンはL-アラニンとD-アラニンの鏡像異性体が存在します。
L-アラニンはN[C@@H](C)C(=O)O
、D-アラニンはN[C@H](C)C(=O)O
と表現されます。
鏡像異性体の重要性
鏡像異性体は、特に薬学や生物学の分野で重要です。
異なる鏡像異性体は、生体内で異なる生物学的活性を示すことがあります。
例えば、胎児に重篤な奇形をもたらすサリドマイドという薬は鏡像異性体が存在します。鏡像異性体うち、左手型にのみ奇形が発生することが知られています。(サリドマイドの場合は、体内で代謝される過程で右手型と左手型の混合化合物になるため、右手型だけ摂取しても奇形の原因になりうる)
このように鏡像異性体は異なる生理活性を発現することがあります。
SMILESの種類
SMILESはGeneric SMILES
、Isomeric SMILES
、Canonical SMILES
にわけられます。
Generic SMILES
原子とそれらの結合のみを記述したSMILESはGeneric SMILESと呼ばれます。
Isomeric SMILES
下記情報を加えたSMILESをIsomeric SMILESと呼びます。
-
@
、@@
による立体の絶対配置 -
/
、\
による幾何異性 - 同位体(ex. [13C])
Canonical SMILES
SMILESをの書き方をルールに従って変換し、化合物に対して一意のSMILESで表現したものをCanonical SMILESと呼びます。
SMILESは1つの化合物に対して複数の書き方が存在するという課題があります。この課題を解決するためにCanonical SMILESが考案されました。
おわりに
今回は化合物を文字列で表現するSMILESについて解説しました。他にもSDF, 分子フィンガープリントなどの化合物表現方法があります。
これらについても別記事で解説していきたいと思います。
関連記事