TopologicalDataAnalysis
Protein
TDA
persistent_homology
HomCloud

パーシステントホモロジーでタンパク質の穴を見てみる

(追記)

PDBIDからパーシステント図を見る簡単なWebアプリを作りました。

Protein Holes

よければご覧ください。

はじめに

現在、情報系の大学に通う大学4年生です。

今回は、パーシステントホモロジーを用いてタンパク質の穴を可視化してみました。

パーシステントホモロジーとタンパク質

パーシステントホモロジーとは、新しい位相的データ解析手法のことです。

一言で説明すると、データに含まれる「穴」に注目した解析手法です。

詳しくは、「位相的データ解析の基礎と応用」をご覧ください。

使用したデータは、"Met-Perch Hemoglobin"というタンパク質のα炭素(炭素骨格)の3次元座標を使いました。

Met-Perch Hemoglobinは下の図のような構造をしています。

スクリーンショット 2018-05-05 22.28.34.png

中心に穴(空洞)があるように見えませんか?

この穴をパーシステントホモロジーを使って可視化してみようと思います。

パーシステントホモロジーの計算には、HomCloudを使いました。

PDBファイル(タンパク質構造のファイル:Protein Data Bankから入手可能)からα炭素を抜き出す部分のソースコードを簡易的に加えたものを公開しています。

ソースコードは、こちらからご覧ください。

結果

初めに、入力データであるα炭素の3次元座標は次のようなものです。

左から(x, y, z)に対応し、各行は各炭素原子に当たります。

スクリーンショット 2018-05-05 22.45.57.png

次に、2次(空洞)のパーシステントホモロジーを計算した後のデータです。

左側がbirth(横軸)、右側がdeath(縦軸)に当たります。

スクリーンショット 2018-05-05 22.50.06.png

計算したデータをプロットして見ます。

スクリーンショット 2018-05-05 22.44.02.png

(45, 73)ぐらいのところに、最も対角線から離れた点が確認できます。

おそらく、この点がMet-Perch Hemoglobinの中心にある大きな穴(空洞)ではないかと思われます。

最後に

パーシステントホモロジーは比較的新しい手法であり、概念的にも面白いものだと思います。

また、ディープラーニングとの統合も提案されており、とても興味深いです。

機械学習との統合については、今後さらに勉強して行こうと思います。

(追記)

HomCloudのWebサイトが更新されていて、インストール時のエラーが無くなっていました。

(MacOXでも普通にインストールできました。)

さらに、以前は使えなかった拡張部分が使えるようになっていました。

# HomCloudのインストール時のエラー
HomCloudのインストール時につまずいたところをいくつかあげて起きます。

原因は分かりませんが、インストールはできました。

1、"cmake"ができない

私のPC環境はmac High Sierraですが、"cmake"だけではエラーがでました。

"cmake CMakeList.txt"とすることで解決できました。

2、"pip3 install homcloud-base-x.y.z.tar.gz"ができない

pyenvのpythonを使っていると、なぜかインストールできませんでした。

以下のようにして、systemのpythonに切り替えることでインストールできました。

$ pyenv global system

参考