2025年の2~5月に開催されていた RNA の立体構造予測する Stanford RNA 3D Folding コンペの解法を振り返ります。気になる解法があれば、ぜひ引用元記事もご覧ください。
また、上位3解法については、次のまとめ記事も詳しいです。
1. コンペ概要
1.1 問題
RNAの塩基配列(A, C, G, U)から、各塩基の3D座標、つまり立体折りたたみ構造(folding)を予測します。RNAのfoldingはタンパク質より構造が複雑で実験データも少なく難しい問題だと知られています。
-
過去にもRNAに関するコンペが開催されていますが、開催ごとにタスク難易度が上がってきています。
- Stanford OpenVaccine: COVID-19 mRNA Vaccine Degradation Prediction (2020):接続している塩基間の分解されやすさを予測
- Stanford Ribonanza RNA Folding (2023):各塩基同士のくっつきやすさを予測し、塩基のペアリングを2次元構造で解釈
1.2 評価指標 : TM-score
予測と正解2つの立体構造のトポロジー的な類似性を0から1の範囲で評価します。局所的なズレに敏感なRMSD(二乗平均平方根偏差)とは異なり、配列張に依存せず構造の全体的な一致度を評価します。1つのターゲットに対して 5 つの予測を提出でき、その5つの中で最もスコアの高い予測がターゲットのスコアになります。
- 公式のコード:Ribonanza TM-Score
2 上位解法
今回のコンペでは、Google DeepMindが開発したAlphaFold 3によるスコアがリーダーボードに登録されていますが、8チームがそのスコアを超えました。また、TM-scoreは0.5を超えれば非常に正確な予測と言われており、なんと4チームがそのスコアを達成しています。今回は、解法が公開されている 4thを除くTop10のチームの解法を見ていきます。
2.1 テンプレートベースモデリング(TBM)アプローチ
今回の個人的最も面白ポイントは、DLでゼロから予測するのではなく、古典的なTBM中心のアプローチが強かったことです。タンパク質のfolding予測では、AlphaFold 2 の衝撃以降、TBMの重要性は低下している印象ですが、RNA特有の課題とTM-scoreでの評価が相まって、TBMを優先するアプローチが有効だったようで、上位チームは大きくスコアを伸ばしています。
テンプレートとは、実験によって既に3次元構造が解明されている座標リストです。塩基配列が似ていれば、多少配列が異なっても機能的に重要な3次元構造は保たれる性質があり、今回のコンペでは非常に有効だったようです。
2.1.1 Hybrid TBM
- 一般的なTBMでは、全体が似ている1つのテンプレートを探すところを、断片的に似ている構造を複数のテンプレートからパズルのようにツギハギして予測する。1st
2.1.2 テンプレート検索
- 単なる文字列の一致だけでなく、RNA特有のギャップペナルティを考慮するグローバルアライメント(Global Sequence Alignment)を用いて進化的に保存された構造領域を特定し、その座標を「Transfer(転送)」するための翻訳ガイドを作成する。1st
- RibonanzaNetによる最終層1つ手前の特徴量を使ってベクトル類似度で検索する。これにより配列上の文字が異なっても機能的に類似したテンプレートを検索できるようにする。また、標準的なBLASTn検索とSmith-Watermanアルゴリズムによるアライメントも併用することで取りこぼしを防いでいる。2nd
2.1.3 自然な構造への補正
2.2 生成系DeepLearningアプローチ
3rd以下は軒並み生成系DeepLearningを主軸としたアプローチを取っていました。こちらも興味深く、各モデルの特徴を理解した様々な工夫が見られました。
2.2.1 Protenix
AlphaFold 3 の設計をもとに ByteDance(TikTokの親会社)により開発されたオープンソースで、DLモデルアプローチとしてはデファクトスタンダード的な立ち位置です。コンペ序盤からProtenixを使ってスコアを出すノートブックも公開されており、多くの参加者に注目されていました。
2.2.2 Boltz-1
こちらもProtenixと同じくAlphaFold 3ベースにMITが開発したオープンソースモデル。上位解法では、他のモデルとあわせて多様性向上のために活用されていました。
2.2.3 DRfold2
全体構造ではなく、塩基間の距離や角度を予測するのに特化したモデル。
2.2.4 AIDO.RNA
構造データではなく、大量の「配列データ」だけを読み込んで、RNAの言語ルールを学習したモデル。
- 通常は後述するMSAデータが必要だが計算に時間がかかる。AIDO.RNAで情報を補完することでMSAなしでProtenixの精度を高めた。6th
2.2.5 trRosetta2
AlphaFold以前は強豪だった、タンパク質構造予測の有名なモデル。
- Protenix、DRfold2、trRosetta2の3つのモデルの良い部分だけを切りはり。10th
2.3 MSA(多重配列アラインメント)情報の活用
少し前述の内容と重複する内容もありますが、MSAをどのように活用したかという切り口でも見てみます。
MSAとは、進化的な関係にある複数の生物の配列データを、文字が縦に揃うように並べ直したデータのことで、構造予測では依然として重要な情報です。
今回は、主催者が提供したMSAデータは作成時期が少し古く、最新の実験データ(特にCASP16などの直近のターゲット)が含まれていないという問題もあり、いかにMSAの情報の質を高めたり、MSA使えない場合にどう耐えるか、という戦略が幅広く取られていました。MSA情報のケアが重要なことがわかります。
2.3.1 再生成
自分たちで最新のデータベースを使って作り直す。
- 公式のrMSA作成パイプラインを使い、14日間かけてMSAをゼロから再生成。3rd
2.3.2 高速ツールによる独自構築
標準的なツール(Jackhmmerなど)ではなく、より高速でカスタマイズしやすいツールを使って独自のデータベースを構築する。
- MMseqs2という非常に高速な検索ツールを採用、MSAが全く見つからない(親戚がいない)場合でもエラーにならないよう、「ダミーの特徴量」を入れてモデルを動かすフォールバック機能を実装。10th
2.3.3 MSAを使わない生成モデルの活用
MSAが存在しないRNAも存在するため、MSAに依存しすぎたモデルは極端に弱くなる。
- AIDO.RNAにより進化的な文脈の埋め込み表現を獲得し、MSAの代わりとしてProtenixに入力。6th
- MSAを使わず配列1本だけで予測するモデルを作成し、通常のMSAありProtenixとアンサンブル。7th
2.3.4 外部データの利用
2.4 アンサンブル戦略
単一のモデルで全てのターゲットに対応することは困難なため、高度なアンサンブル戦略を取られています。
2.4.1 エネルギーベース選択
- 生成された数十〜数百の構造候補に対し、物理化学的なエネルギー関数(Lennard-Jonesポテンシャルやクーロン力)を適用してスコアリングを行い、最も安定な構造(ベスト5)を選択する。8th, 10th
2.4.2 座標マージと部分的置換
異なるモデルの出力を部位ごとに切り貼りする。
- 例えば、Protenixの出力をベース(1-5番目の予測)としつつ、3番目と4番目の予測スロットにはDRfold2の予測結果を、5番目にはtrRosetta2の予測結果を優先的に採用する。10th
2.4.3 カリキュラム学習と配列長による分割
RNAの配列長がモデルの学習難易度に直結することに着目した「カリキュラム学習」的なアプローチ。
- 学習データを配列長(例:0-300nt, 300-500nt, 500nt+)でグループ分けし、まず短い配列でモデルを学習させて基本的な物理法則や局所構造を学ばせ、その後徐々に長い配列へと学習対象を広げる。推論時には、ターゲットの長さに応じて、その長さのレンジに特化したモデル(Specialized Model)を使用する。 5th
3 まとめと反省
それぞれの上位解法を見ると、多くの実験分析と構造生物学の知識に裏打ちされたエレガントな工夫がたくさんありました。触れきれていない工夫もまだあります。最新AIモデルを回すエンジニアリングだけでなく、ドメイン知識を用いた古典的な手法も有効であり、様々な独自性のある解法にあふれた良コンペだったと思います。反面、私は仮にTBMのアプローチ方針が有効だと分かっていたとしても、3ヶ月で同じ精度までパイプラインを開発できたとは思えないです。「楽しむためには強さがいる」ということで、こういった良コンペに楽しんで参加できるよう、精進していきたいなと思いました。
ここまで読んでくださり、ありがとうございました!

