BLASTしても何もわからないとき試すこと
ヘンな生き物や得体の知れないウイルスのゲノムを扱っていると、機能不明のタンパク質 (hypothetical protein) によく出くわす。
それらをBLASTで検索しても、別のhypothetical proteinばかり引っかかったり、そもそも何もヒットしなかったりする。
だがあきらめるのはまだ早い。BLASTよりも強力な相同性検索を駆使すると、その機能を類推できる (=機能既知のタンパク質に実は似ている)、かもしれない。
甲殻類に感染するウイルスの比較ゲノム解析を行う中で、こうするといいんじゃないかとという方法が浮かび上がってきたので記しておく。
目次
ドメイン検索
BLASTで類似性を検出できないほど配列がかけ離れたタンパク質でも、機能的に重要なアミノ酸残基は頑なに保存されていることがある。そのような進化的に遠縁 (remote) なホモログを検出できるのが、隠れマルコフモデル (hidden Markov model; HMM) や位置特異的スコアマトリックス(position-specific scoring matrix; PSSM) に基づく相同性検索。
タンパク質ファミリーのモデルにクエリ配列をあてはめて、統計的に有意に似ていたらヒット、ということだと理解している(間違ってたらすいません)。
ドメイン検索プログラムにはHMMERやCD-Search、SMARTなどがある。今回はHMMERを使う。
HMMER
ズワイガニに感染する大型DNAウイルスCoBV (Chionoecetes opilio bacilliform virus) のタンパク質 (BDU62214.1) を例にとる 。
EMBL-EBIが提供するHMMSCANサーバーは、ユーザーのクエリ配列をHMMデータベースに対して問い合わせる。
ボックス内に配列をペーストし、Submitボタンを押す。デフォルトではPfamが選択されているが、好みに応じて追加する。
このような結果が出た。
エビ病原ウイルスWSSVのエンベロープタンパク質WSS_VPファミリー (PF12175) に有意なヒットが得られた。
CoBVはWSSVと同じニマウイルス科に属する。CoBVとWSSVの共通祖先から受け継がれたタンパク質遺伝子が保存されていると考えられる。
HMM-HMM比較
機能は分からないが似た配列はとりあえずいっぱいある、という状況の場合、それらの多重整列 (multiple sequence alignment; MSA) を構築することで、ドメイン検索よりもさらに強力な相同性検索を利用できる。
WSSVや類縁ウイルスで保存されている機能不明の構造タンパク質wsv134を例にとる。
以下の類縁配列をNCBIからダウンロードし (BLAST等で探す。多数の配列をまとめてダウンロードするときはBatch Entrezがおすすめ)、MAFFT でアラインメントした。
YP_009220517.1 hypothetical protein SWSSV_gp043 [White spot syndrome virus]
BDT62704.1 MAG: wsv134-like protein [Metapenaeus ensis nimavirus]
BDT62976.1 MAG: wsv134-like protein [Trachysalambria curvirostris nimavirus]
BDU62151.1 wsv134-like protein [Chionoecetes opilio bacilliform virus]
BDW09843.1 MAG: wsv134-like protein [Marsupenaeus japonicus pemonivirus]
BDT62441.1 MAG: wsv134-like protein [Melicertus latisulcatus pemonivirus]
BDV49843.1 MAG: wsv134-like protein [Penaeus semisulcatus pemonivirus]
BDT61816.1 MAG: wsv134-like protein [Penaeus monodon endogenous nimavirus]
BDT63188.1 MAG: wsv134-like protein [Hemigrapsus takanoi nimavirus]
BDV49907.1 MAG: wsv134-like protein [Metapenaeopsis lamellata majanivirus]
BDT61702.1 MAG: wsv134-like protein [Marsupenaeus japonicus endogenous nimavirus]
BDT62361.1 MAG: wsv134-like protein [Melicertus latisulcatus majanivirus]
BDT61924.1 MAG: wsv134-like protein [Penaeus monodon majanivirus A]
BDT62267.1 MAG: wsv134-like protein [Penaeus semisulcatus majanivirus]
BDT62044.1 MAG: wsv134-like protein [Penaeus monodon majanivirus B]
BDT62146.1 MAG: wsv134-like protein [Litopenaeus vannamei majanivirus Nimav-1_LVa]
BDT62618.1 MAG: wsv134-like protein [Metapenaeus ensis majanivirus]
BDT62767.1 MAG: wsv134-like protein [Metapenaeus joyneri majanivirus]
BDT62877.1 MAG: wsv134-like protein [Trachysalambria curvirostris majanivirus]
BDV49996.1 MAG: wsv134-like protein [Porcellio scaber clopovirus]
BDT63382.1 MAG: wsv134-like protein [Armadillidium vulgare clopovirus]
HHpred
HHpredはMSAや個別の配列をクエリとして受付ける。個別の配列を投げた場合、自動的にサーバーのDBから似た配列を探し出してMSAを構築する。
MSAから構築したHMMとDB上のHMMを比較することで、配列vsHMMよりもさらに高感度に相同性を検出できる。
https://toolkit.tuebingen.mpg.de/tools/hhpred
DBは最大4つまで選択できる。デフォルトだとPDB (protein data bank; タンパク質の立体構造) が選択されているが、今回はPfam、NCBI Conserved Domains、SMART、そしてTIGRFAMsを選択。
画面中央のボックス内にFASTA形式のMSAをペーストするか、ファイルをアップロードしてSubmit
。
このような結果が出た。
Baculovirus 19 kDa protein conserved region PF04798は、節足動物に感染する大型DNAウイルスで広く保存されているPIF4 (per os infectivity factor 4) というタンパク質。
PIFには数種類あり、宿主への経口感染に関わるper os infectivity factor complexというタンパク質複合体を形成している。WSSがPIF4以外のPIFを持つことはすでに知られていた。そして、このWSSVのPIF4様タンパク質が実際にPIF複合体の構成要素であることをウェットな実験で検証した論文が出ていた。
今回得られたHHpredのヒットは当たりとみてよさそうだ。
構造検索
AlphaFold2をはじめとする立体構造予測はすっかりポピュラーになった。機能不明タンパク質の構造を予測することで、HHpredのヒットをさらに裏付けたり、あるいはHHpredですら検出できなかった構造レベルでの類似性を検出できると期待される。
WSSV等のニマウイルスの間で保存されているhypothetical proteinのwsv427を例にとる。使用した配列は以下の通り。
YP_009220616.1 hypothetical protein SWSSV_gp142 [White spot syndrome virus]
BDT63552.1 MAG: wsv427-like protein [Pasiphaea japonica whispovirus]
BDV50183.1 MAG: wsv427-like protein [Chiromantes dehaani nimavirus]
BDT63427.1 MAG: wsv427-like protein [Sesarmops intermedium nimavirus]
BDT62673.1 MAG: wsv427-like protein [Metapenaeus ensis nimavirus]
BDT63028.1 MAG: wsv427-like protein [Trachysalambria curvirostris nimavirus]
BDU62127.1 wsv427-like protein [Chionoecetes opilio bacilliform virus]
BDT63083.1 MAG: wsv427-like protein [Sicyonia whispovirus]
BDT63190.1 MAG: wsv427-like protein [Hemigrapsus takanoi nimavirus]
BDW09894.1 MAG: wsv427-like protein [Marsupenaeus japonicus pemonivirus]
BDT62496.1 MAG: wsv427-like protein [Melicertus latisulcatus pemonivirus]
BDV49857.1 MAG: wsv427-like protein [Penaeus semisulcatus pemonivirus]
BDT61829.1 MAG: wsv427-like protein [Penaeus monodon endogenous nimavirus]
BDT63466.1 MAG: wsv427-like protein [Sesarmops intermedium nimavirus]
BDV49940.1 MAG: wsv427-like protein [Metapenaeopsis lamellata majanivirus]
BDT61692.1 MAG: wsv427-like protein [Marsupenaeus japonicus endogenous nimavirus]
BDT62351.1 MAG: wsv427-like protein [Melicertus latisulcatus majanivirus]
BDT61897.1 MAG: wsv427-like protein [Penaeus monodon majanivirus A]
BDT62241.1 MAG: wsv427-like protein [Penaeus semisulcatus majanivirus]
BDT62190.1 MAG: wsv427-like protein [Litopenaeus vannamei majanivirus Nimav-1_LVa]
BDT62954.1 MAG: wsv427-like protein [Trachysalambria curvirostris majanivirus]
BDT62578.1 MAG: wsv427-like protein [Metapenaeus ensis majanivirus]
BDT62769.1 MAG: wsv427-like protein [Metapenaeus joyneri majanivirus]
MAFFTで構築したMSAをHHpredに投げると、DNA修復に関わる酵素のウラシル-DNAグリコシラーゼ (UDG) にヒットした。
このヒットがタンパク質の構造レベルでサポートされるか検証してみる。
今回はColabFoldを使ってwsv427の立体構造を予測する。
ColabFold
ColabFoldはデフォルトでもDB上から似た配列を探し出しMSAを構築する。だが場合によっては似た配列がColabFoldのDB上にほとんどなかったりする。そこでかわりにカスタムMSA (自分で配列を集めて作ったMSA) を用いる。
カスタムMSAのFASTA→a3m変換
FASTA形式のMSAをColabFoldに投げるとエラーとなった。FormatSeqでFASTA形式からa3m形式に変換する。
1行目の#A3M#
を削除して保存。
ColabFoldを走らせる
ColabFoldを開く。LocalColabFoldもおすすめ。
Input protein sequence(s), ...
を実行する前にmsa_mode
をcustomにする。
Input protein sequence(s), ...
のquery_sequence
にクエリ配列、jobname
にタイトルを入力後、実行。
続いてMSA options
を実行すると、ファイルの選択
ボタンが現れる。a3m形式のMSAファイルをアップロードし、構造予測を走らせる。
得られた.pdbファイル (pLDDT=73.1 pTM=0.737)をChimeraXで可視化した。カラーリング設定はcolor bfactor palette alphafold
。
構造検索サーバー
得られた予測構造を既知のタンパク質立体構造に対して問い合わせる。
DALI
DALIはPDB等のDBに対して検索したり、PDB間のペアワイズ比較ができる。
full PDBに対するヒットは以下の通り。UDGがトップヒットにずらりと並ぶ。
ChimeraXに実装されているMatchmakerを使って、トップヒットのひとつ(Mycobacterium tuberculosis uracil-DNA glycosylase (4ws1))とwsv427の構造を重ね合わせた。
正直どこまで似ていると言えるのかわからないが、TM-AlignのTM-score (4ws1側の長さで正規化) は0.73021とかなり高かった。
FoldSeek
FoldSeekはDALIより高速で、AlphaFoldDBなどPDB以外のDBに対しても一度に検索できる。
以下のような結果となった。
どちらの検索結果も、wsv427の予測構造がUDGの立体構造に似ていることを強く支持した。
UDGはヘルペスウイルスやポックスウイルスといった他の大型DNAウイルスにおいてウイルスの複製に重要とされる。WSSVでもUDGが重要な機能を担っているとしても不思議ではない。
wsv427が本当に機能的なUDGなのかはウェットな実験で確かめる必要があるが、かなり「それらしい」予測結果が得られたことは間違いない。
相同性検索の限界
相同性検索から得られた知見は予測に過ぎないため、過剰解釈しないよう注意が必要だ。
多様なメンバーが存在する酵素や輸送体、受容体タンパク質ファミリーについては特に気を付けたい。
タンパク質の大まかな構造がある特定の酵素に似ていても、その基質まで同じとは限らないからだ。
ただ、DNAポリメラーゼやRNAポリメラーゼ、プライマーゼなど、生物やウイルス間で高度に保存された酵素や、またウイルスの構造タンパク質についてはおおむね信用していいだろう (そのリガンドについては注意が必要だろうが)。
ウェットな実験なしでは確証は得られない。だが様々な理由からそのような実験が難しい場合がある。
相同性検索に基づく機能予測は、使い方を間違えない限り、できる範囲で最も確からしい説明を与えてくれる。