TopologicalDataAnalysis
Protein
TDA
persistent_homology
HomCloud

パーシステントホモロジーでタンパク質の穴を見てみる

(追記)

PDBIDからパーシステント図を見る簡単なWebアプリを作りました。

Protein Holes
スクリーンショット 2018-09-02 2.55.20.png

はじめに

現在、情報系の大学に通う大学4年生です。

今回は、パーシステントホモロジーを用いてタンパク質の穴を可視化してみました。

パーシステントホモロジーの理論の話はしておらず、やってみた系の記事です。

パーシステントホモロジーとタンパク質

パーシステントホモロジーとは、新しい位相的データ解析手法のことです。

一言で説明すると、データに含まれる「穴」に注目した解析手法です。

詳しくは、「位相的データ解析の基礎と応用」をご覧ください。

データは、"uncleaved ovalbumin"(1OVA)というタンパク質のアミノ酸主鎖座標(x, y, z)を使いました。

uncleaved ovalbuminは以下のような構造をしています。

output.gif

このタンパク質に存在する穴をパーシステントホモロジーを使って可視化してみようと思います。

パーシステントホモロジーの計算には、HomCloudを使いました。

PDBファイル(タンパク質構造のファイル:Protein Data Bankから入手可能)からアミノ酸主鎖座標を抜き出す部分のソースコードを公開しています。

ソースコードは、こちらからご覧ください。

結果

uncleaved ovalbuminの2次(空洞)のパーシステントホモロジーを計算した後のプロット図です。

スクリーンショット 2018-09-02 2.56.32.png

最後に

パーシステントホモロジーは比較的新しい手法であり、概念的にも面白いものだと思います。

また、ディープラーニングとの統合も提案されており、とても興味深いです。

機械学習との統合については、今後さらに勉強して行こうと思います。

(追記)

HomCloudが更新されていて、インストール時のエラーが無くなっていました。
インストールもpipで簡単にできるようになりました。

(MacOXでも普通にインストールできました。)

さらに、以前は使えなかった拡張部分が使えるようになっていました。

# HomCloudのインストール時のエラー
HomCloudのインストール時につまずいたところをいくつかあげて起きます。

原因は分かりませんが、インストールはできました。

1、"cmake"ができない

私のPC環境はmac High Sierraですが、"cmake"だけではエラーがでました。

"cmake CMakeList.txt"とすることで解決できました。

2、"pip3 install homcloud-base-x.y.z.tar.gz"ができない

pyenvのpythonを使っていると、なぜかインストールできませんでした。

以下のようにして、systemのpythonに切り替えることでインストールできました。

$ pyenv global system