こちらは創薬アドベントカレンダー2018 の21日目の記事です。
タンパク質の幾何学的なモデルであるファットグラフモデルについての簡単な紹介を書きました。数学的に厳密なstatementは省略していますので、気になった方はぜひお声掛けくださいませ。お話に伺わせてください!
目次
はじめに
解きたい課題
トポロジーとは
タンパク質のファットグラフモデル
はじめに
はじめまして。根上 春と申します。
- 学部では構造生物学を専攻し、
- 修士課程では分子グラフと機械学習の創薬への応用を研究し
- 博士課程ではファットグラフと呼ばれる特殊なグラフを使ったタンパク質の立体構造分析手法の研究をしております。
分子グラフについては今年の創薬アドベントカレンダーの14日目に @mojaieさんが解説してくださっていますのでそちらをどうぞご覧くださいませ。
使用言語は日本語、英語、Python、シェルスクリプト。エディタはVScodeを愛用しています。VScode、今の所マジ神。好きな数学の分野はトポロジーで、毎週有志で集まって数学カフェという勉強会を開いています。
創薬クラスタの方々とは日頃あまり交流がないのですが、今回こちらのアドベントカレンダーをきっかけにして皆様と交流が出来ましたら幸いです。また、自身の(マイナーな)研究内容について興味を持ってくださる方がいましたら嬉しいです。
解きたい課題
タンパク質の立体構造解析や創薬における重要な問題として、
アミノ酸配列からタンパク質の立体構造を予測することができるか?
が挙げられます。
生体内での様々な反応の多くは多様なタンパク質を介して行われます。このタンパク質は、個々人が持っている遺伝子によって設計される生体内高分子であり、進化の過程で遺伝子に変異が起こることで、生命は様々な形質を獲得してきました。
人によって遺伝子が異なるために、特定の病気にかかりやすい/かかりにくいといったことが起こることがあります1が、これは設計図のわずかな変化によって、作られるタンパク質の立体構造が変化し、そのタンパク質が司る反応などに変化が見られることに由来します。
このように、タンパク質の立体構造の研究は疾患の原因究明や創薬において、あるひとつの重要な役割を担っています。配列から立体構造を予測する手法については、創薬アドベントカレンダー2018の@Ag_smithさんのこちらの記事テンプレートなしのタンパク質構造予測手法〜CCMPredとRosettaを添えて〜にも詳しく解説されていますので、どうぞ御覧ください。
ところで、そもそも、「立体構造の特徴」はどのようにして定量的に評価されるのでしょうか?
目で見たときに2つの構造は似ているように思えるけれども、どの程度近いのでしょうか?
そして、目で見ても見いだせないような類似性はどのように表現したら良いのでしょうか?
今日私がご紹介するタンパク質のファットグラフモデル2は、この問いに対して一つの答えを与えるものです。この手法は数学の中でもトポロジーと呼ばれる分野の知見を用いたものです。
トポロジーとは
トポロジーとは幾何学の一分野で、柔らかい幾何学などとも呼ばれます。下のgifにあるように、コーヒーカップとドーナツはぐにゃっと曲げていくとお互いの形にそれぞれ変形できる、という話を聞いたことがあるでしょうか?
上はwikipediaからの引用3です。
このように互いに連続的な変形をしても保たれる性質を位相不変量と呼び、この位相不変量についての研究領域をトポロジーといいます4。たとえば上のコーヒーカップの表面、またはドーナツの表面については、一つ大きな穴が空いているという性質を共有していますが、このような穴の数も一つの不変量である種数(genus)になります。連続に変形してドーナツと同じ形になる図形は genus=1 の閉曲面と呼びます。
境界付き二次元多様体
上で挙げたような図形は、この図形の表面をどのような方向に歩いていっても世界に終わりがありません。このような図形を境界のない閉曲面といいます。では、ある方向に進んでしまうとその世界の境界にたどり着き、それ以上(面の上側から下側への移動を許さずに)真っ直ぐに進めないような図形を考えてみましょう。たとえば下の図のように、ドーナツの表面から、境界のない円盤を切り取ったような図形がこの性質を満たします。このような図形を境界付き二次元多様体といいます。
今回注目する不変量は、この境界要素です。
タンパク質のファットグラフモデル
Fatgraph models of proteins2 は2010年にトポロジーの大家であるR.C.Pennerらによって考案されました。タンパク質を構成する各原子の三次元的な座標がX線構造解析などの手法で測定され、Protein Data Bank(PDB)に掲載されています。PDBのデータとDSSPと呼ばれる水素結合の存在の有無を計算する手法に基づいてタンパク質の立体構造から境界付き二次元多様体を構成し、各種の不変量によってその構造を分類します。
まずは、タンパク質の立体構造から曲面を構成する方法について解説します。
生体内で翻訳されたタンパク質は以下に示されるようにして立体構造を獲得します。5
上記の順に対応させるようにして、以下のようにファットグラフを構成します。
図の中のnode, edgeはグラフ理論でいうところの点と辺に対応します。
曲面の不変量である境界要素の数など6を計算することで、Pennerらは、PDBに掲載されているタンパク質の立体構造とファットグラフが数例の例外を除き1:1対応を取ることを示しました。より正確には、水素結合の有無の判定をする際にポテンシャルのthresholdを設け、7段階に分けたthresholdごとにファットグラフを構成すれば、数例を除き十分に構造を分類できる、ということを示しました。タンパク質の大域的な立体構造を人間の主観によらず定量的に表せる指標として今後活用されることが期待されます。
おわりに
現在私は、ここで登場した不変量の改良を行い、具体的な創薬への応用に活かせるようなモデルを構築しています。preprint の投稿が今日に間に合わなかったです…。全然詳しく書けなくて本当にすみません。また、不変量を計算するライブラリーも論文がアクセプトされ次第公開したいと思います(いつになるのか。まだ先になりそう。。。でも自分で考えたアルゴリズムなのでちょっと思い入れがあり、早く公開したいです。。)。
また、グラフ理論で言うところのグラフとファットグラフのつながりについての説明は割愛しました。このファットグラフは数理物理の分野でよく研究されている対象で、とても面白いので、機会があればまた書きたいと思います。
もし興味持ってくださった方がいらっしゃいましたらぜひ色々議論させていただきたく思いますので、どうぞお声掛けくださいませ。
それでは!明日は、@mojaie さんによる、Juliaでケモインフォマティクスです。計算スピードを改良のためにJulia習得したいと思っているので、とても楽しみです!