More than 1 year has passed since last update.

Foldseekを使ってタンパク質の予測構造から基質の結合部位・酵素活性部位を予測する

Posted at 2023-09-02

Introduction: タンパク質の立体構造と機能

タンパク質はアミノ酸配列が立体構造を取るように折れたたまったものです。その機能は、タンパク質の構造と密接に関連しておりまして、一般に酵素反応の理解と酵素、機能の改変、さらには創薬に置いて、タンパク質の立体構造情報利用すると言う事は、極めて効果的であると言うことが知られております。

AlphaFold2が登場して以降、生化学実験を行う時にそのタンパク質の予測構造をもとに実験計画を立てるということが急速に一般化してきました。しかし、これまで構造生物学に慣れている人であれば問題ないのですが、「とりあえずAlphaFold2で構造を予測してみたけれど、それを使ってどうすればいいのかわからない」という声がまぁまぁな頻度で寄せられるので、それについてのいくつかの利用法を紹介したいと思います。

タンパク質の配列・構造データベース

UniProtデータベースの利用

UniProtデータベースはEMBL-EBI, SIB, PIRのコンソーシアムから構成されて運営されている、世界最大のタンパク質データベース(DB)です。UniProtの主要なリソースであるUniProt Knowledgebase (UniProtKB) は手動で構築された豊富なアノテーションをもつ、タンパク質の機能情報を収集したDBです。Knowledgebase（知識ベース）という名前が示すように、タンパク質の機能に関する知識の収集をめざしています。
UniProtKB の各エントリには、必須のコアデータ（アミノ酸配列、タンパク質の名前および説明、分類学的データ、引用情報など）に加えて、細胞内局在情報、翻訳後修飾、ドメイン構成、 Gene Ontology、他のDBとの相互参照などが登録されています。UniProtKBには、人手によってアノテーションがつけられたSwiss-Protと、コンピュータ解析で自動的にアノテーションがつけられたTrEMBLの2つがあります。

TogoTVにはこの使い方についての動画があります（2017年9月版）

UniProtを使って、タンパク質のアミノ酸配列とその機能情報を横断的・網羅的に調べる

Protein Data Bank (PDB)の利用

タンパク質、核酸等、生体高分子の立体構造のデータは、これらを収集、公開している世界で唯一のデータベースであるProtein Data Bank (PDB) に集約されています。2023年8月時点でのエントリ数は約20.9万件で、データベースにアクセスするためのWebサーバには、米国RCSB PDB, 欧州のPDB in Europe (PDBe), 日本の大阪大学蛋白研で運営されている日本蛋白質構造データバンク (PDBj)があり、この3つは対等な関係で、これら3つの窓口を通じて構造情報を登録できるようになっています。それぞれのところでデータを処理した後、週に1度データベースを同期させることでそれぞれ同じデータベースになるようアップデートされています。これまでアジア・中東地区からの構造情報の登録は日本が行っておりましたが、近年は中国の構造生物学が大変勢いを増してきたこともあって、中国にもPDBの準拠点をおくようになり（PDBｃ）、associate memberとして参加するようになりました。参考：https://pdbj.org/cms-data/workshop/20200916/Biophys_2020_online_Kurisu_current_status.pdf

一方で、それぞれのウェブサイトではデータの表示の仕方や、付加的なサービスが異なるため、それぞれアクセスして使いやすいWebサーバを用いるのが良いでしょう。私個人としてはウェブサービスの豊富さからRCSB PDBをよく利用しています。

AlphaFold Protein Structure Databaseの使用

2021年7月22日頃、DeepMind社とEMBL-EBIが連携してAlphaFold Protein Structure Databaseというものを作成しました。当初はモデル生物とSwiss-Protのみをカバーしていましたが、2022年7月29日頃からはTrEMBLに含まれる2億くらいの現在存在が確認されているタンパク質についてのAlphaFold2で予測された単量体構造がダウンロード可能になっています。

まだUniProtに登録されていないタンパク質の構造を予測したい場合、または多量体の複合体を予測したい場合は依然としてAlphaFold2やColabFoldなどで構造を予測する必要があります。

Ref: https://www.nature.com/articles/s41586-021-03828-1

Case 1: あるタンパク質についての酵素活性を調べたい

UniProtでそのタンパク質の予測構造をダウンロードする

手元にアミノ酸配列だけがわかっているタンパク質があるとします。この配列がもしUniProt上にすでに登録されている場合は、UniProt上でそのタンパク質にアクセスしてみます。今回は例としてUniProt ID: A0A072U060のタンパク質を挙げます。このUniProtのページに飛んでみましょう。

こちらのWebページには現在までに判明している情報が記録されていますが、今回は"Structure"の見出しに飛びます。

現在、UniProtとAlphaFold Structure Databaseは統合しており、図の青枠の部分をクリックするとAlphaFold2で予測された単量体構造をすぐにダウンロードして使うことができます（※画像の"AlphaFold"の文字ではなく↓マークの方をクリックしてください）。PyMOLやUCSF Chimeraなどでファイルを開いて構造を確認してい見ましょう。PyMOLの使い方についてはpymol-bookなどを参照してください。

ここで注目してほしいのは、その右にあるFoldseekというボタンです。このボタンを押すことで、類縁構造を検索するFoldseekというウェブサイトに飛ぶことができます。

Foldseekで類縁構造を検索する

Foldseekは構造ベースで類縁構造を検索できるソフトウェアの1つです。構造ベースで類縁構造を検索するといえば、シニアな構造生物学の研究者はDALI Serverを思い浮かべますが、論文によれば、Foldseekの3Di/AAモード検索はSCOPe40タンパク質ベンチマークに対してDALIやTM-alignを使ったより検索速度が4000倍速く、CEよりも21000倍速い結果を提示しました。またAlphaFoldDB(ver.1)についてすべて検索すたときは、DALI,TM-alignよりそれぞれ184,600倍、23,000倍速く計算できたとのことです。ただし、感度はDALI, TM-align, CEに比べると86%, 88%, 133%ということで、いくらか取りこぼしが発生してしまうのは仕方ないようです（※そもそも真陽性の定義は難しいと思いますが）。

ではこれを使って類縁構造を検索してみましょう。やり方は簡単で、先程のUniProt画面でFoldseekのボタンを押すだけでその予測構造をインプットした状態のFoldseekのページに移ることができます。

次に、"DBs & search settings"をクリックして検索対象のデータベースを指定しましょう。ここではPDB100を指定することで、Protein Data Bankに登録されているすべての構造について検索を行うことができます（※不定期ですが検索対象のPDBデータベースがアップデートされているようです）。また、Modeを3Di/AAとすることでFoldseekの高速な検索を行うことができます。

また、図からわかるようにDatabasesは他のものを同時に指定することもできます。AlphaFold/UniProt50 v4とすると、UniProtの中にある（冗長性50%カットの）構造群の中から類縁構造を検索してくれるので、「このタンパク質と同じ形のタンパク質はAFDBの中にどれくらいあるだろう？」とサーチをかけることもできます。

これらのパラメータを指定したら実行します。PDB100データベース対象ですと、1分もしないうちに検索結果が返ってきます。結果は以下のようになりました。

類縁構造のリストが返ってきました。大体の場合は一番上から順に見ていくとよいでしょう。Position in queryは入力として与えたアミノ酸配列に対してカバーしているアミノ酸位置を示しています。この範囲が広く、かつE-valueの値も十分小さい（eは指数表示；e-38は$10^{-38}$を表す）と全体的に構造が似ていることが示されます。ここで、seq.Id.（sequence identity; 配列同一性）の値が36.4などあまり高くない値になっていることに注目しましょう。ここがFoldseekがBLASTなどの配列ベース検索ソフトウェアとは異なる点で、配列が20~30％程度であっても同じ構造を取ることができるタンパク質をきちんと拾ってこれることを表しています（※そもそももし配列同一性が十分高いものを拾ってきたいのであればBLAST検索すればいいだけの話なので）。タンパク質の世界では、アミノ酸配列のSequence identityが20〜30％であっても同じ機能を持つということはとても良くある話なので、Foldseekはその点で優れていると言えるでしょう。

左端のTargetの部分にかかれているPDB IDとチェインIDをクリックすると、該当のRCSB PDBのウェブページに飛ぶことができます。

PyMOLで構造を重ねて調べてみる

先程ヒットしたPDB IDを見て、PyMOL上で構造を重ね合わせてみましょう。詳細なPyMOLの使い方についてはpymol-bookなどを参照してください。

まず先程UniProtからダウンロードしたAlphaFold予測構造をPyMOLで開きます。

続いて、先程のリストにあったPDB ID（とチェインID）のうち、"5o9w_A", "5o7y_A", "6lsv_A", "7ekd_A", "6ku3_B" について構造をダウンロードして重ねて見ることを試みます。PyMOLにはPDBから構造を直接ダウンロードして表示するためのコマンドfetchが用意されています。例えばPDB ID:5O9WのChain Aだけ表示させたい場合は、インターネットに接続している状態で上のコマンド入力部分にfetch 5o9wAとすればOKです。これを利用してこれら5つの構造を表示させます。

fetch 5o9wA
fetch 5o7yA
fetch 6lsvA
fetch 7ekdA
fetch 6ku3B

構造がダウンロードされました。Foldseekによればこれらの構造は似ているはずですので、構造の重ね合わせコマンドを使って先程のAlphaFold予測構造に重ねてみましょう。
たくさんの構造が表示されている時、通常の重ね合わせコマンドalignやsuperを使うよりも、alignto <object名>コマンドを使うほうが速く処理できます。AlphaFoldの予測構造のオブジェクト名AF-A0A072U060-F1-model_v4にすべての構造を重ねる場合は以下のコマンドを使います。

alignto AF-A0A072U060-F1-model_v4

これにて構造をすべて重ねることができました。マウス・タッチパッドなどを使って構造をよく見てみましょう。特に、基質が結合しているあたりの残基に注目してみます。

PDB ID: 6KU3 chain Bにはグレーで示されている2-オキソグルタル酸と紫で示されているジベレリンA4が結合しています。この情報は、RCSB PDBのPDB: 6KU3のページ（ https://www.rcsb.org/structure/6ku3 ）のSmall moleculesにかかれています。
このAlphaFoldの予測構造について、特に2-オキソグルタル酸の周りに存在する残基の組成を見てみると、予測構造のArg-221, Asn-223, Tyr-225, His-240, Asp-242, His-297は6ku3の構造中の同じ位置にあることがわかります。それゆえ、これらの残基が2-オキソグルタル酸との結合に重要であることが示唆されます。

また、今度はPDB: 6LSVの構造を見てみると、予測構造のHis-240, Asp-242, His-297のところにある6LSVの残基が鉄原子と配位していることがわかります。2-オキソグルタル酸を使う酵素は通常鉄原子とともに酵素反応を起こすことがよく知られていることを考えると、PDB ID: 6KU3にはたまたま鉄原子が結合していなかったようですが、本来はPDB: 6LSVのように鉄原子がある方が尤もらしいと思います。他の構造を見てみると、5O9W, 5O7Yは鉄原子の代わりにニッケル（Ni）が同じ位置に存在しています。Fe, Niは配位的に似たような性質を示すことがあり、結晶化条件のbufferに含まれている場合にはそれが結合することがあります。

一方で紫色で示しているジベレリンA4の周りは、主鎖骨格はほぼ同じですが残基組成が異なっています（予測構造でThr-139, Ala-243, Ser-244, Leu-350、PDB: 6KU3ではIle-98, Thr-139, Pro-205, Gln-206, Tyr-312）。2-オキソグルタル酸と鉄原子のすぐ近くにもう1つの基質が存在することは反応機構的にもリーズナブルですので、この予測構造のタンパク質が何を基質とするかはわかりませんが、このあたりに活性部位があることは間違いないだろう、と予測をつけることができます。

RCSB PDBのページにはまたLiteratureの項目があり、ここからその結晶構造が初出の論文に遷移することができます。近年の論文ではたいてい構造決定だけでなくどのアミノ酸が活性部位かの変異実験などが行われている事が多いので、PDBにある類縁構造の論文を調べることは有用でしょう。

AlphaFillの活用

AlphaFillは上記AlphaFold2の予測構造に補因子・基質のデータが存在していないことを受けて、それに結合しうる分子をPDBの類縁構造の中からサーチして埋めてくれるツールです。論文はこちら。
コマンドラインでも使うことはできますが、残念ながらmacOSではインストールが事実上不可能で、またウェブサーバーが存在するので簡単に使うのであればこちらを試してみると良いでしょう。参考記事：https://qiita.com/Ag_smith/items/5903e43d469cec5b6cb1

ただ、こちらは先程のFoldseekと異なり構造ベースで類縁構造をサーチしてくれないため、Sequence Identityがそこそこ高いものでしか埋め合わせしてくれなさそうなのと、全リガンドを埋めるので使い勝手があまりよくない……気がします。

AlphaFillはAlphaFoldモデルにリガンドやコファクターを補完する

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up