11
5

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Kaggle - Stanford RNA 3D Folding コンペ 上位解法

11
Last updated at Posted at 2025-12-04

2025年の2~5月に開催されていた RNA の立体構造予測する Stanford RNA 3D Folding コンペの解法を振り返ります。気になる解法があれば、ぜひ引用元記事もご覧ください。
また、上位3解法については、次のまとめ記事も詳しいです。

1. コンペ概要

1.1 問題

RNAの塩基配列(A, C, G, U)から、各塩基の3D座標、つまり立体折りたたみ構造(folding)を予測します。RNAのfoldingはタンパク質より構造が複雑で実験データも少なく難しい問題だと知られています。

1.2 評価指標 : TM-score

予測と正解2つの立体構造のトポロジー的な類似性を0から1の範囲で評価します。局所的なズレに敏感なRMSD(二乗平均平方根偏差)とは異なり、配列張に依存せず構造の全体的な一致度を評価します。1つのターゲットに対して 5 つの予測を提出でき、その5つの中で最もスコアの高い予測がターゲットのスコアになります。

2 上位解法

今回のコンペでは、Google DeepMindが開発したAlphaFold 3によるスコアがリーダーボードに登録されていますが、8チームがそのスコアを超えました。また、TM-scoreは0.5を超えれば非常に正確な予測と言われており、なんと4チームがそのスコアを達成しています。今回は、解法が公開されている 4thを除くTop10のチームの解法を見ていきます。

2.1 テンプレートベースモデリング(TBM)アプローチ

今回の個人的最も面白ポイントは、DLでゼロから予測するのではなく、古典的なTBM中心のアプローチが強かったことです。タンパク質のfolding予測では、AlphaFold 2 の衝撃以降、TBMの重要性は低下している印象ですが、RNA特有の課題とTM-scoreでの評価が相まって、TBMを優先するアプローチが有効だったようで、上位チームは大きくスコアを伸ばしています。

テンプレートとは、実験によって既に3次元構造が解明されている座標リストです。塩基配列が似ていれば、多少配列が異なっても機能的に重要な3次元構造は保たれる性質があり、今回のコンペでは非常に有効だったようです。

2.1.1 Hybrid TBM

  • 一般的なTBMでは、全体が似ている1つのテンプレートを探すところを、断片的に似ている構造を複数のテンプレートからパズルのようにツギハギして予測する。1st

2.1.2 テンプレート検索

  • 単なる文字列の一致だけでなく、RNA特有のギャップペナルティを考慮するグローバルアライメント(Global Sequence Alignment)を用いて進化的に保存された構造領域を特定し、その座標を「Transfer(転送)」するための翻訳ガイドを作成する。1st
  • RibonanzaNetによる最終層1つ手前の特徴量を使ってベクトル類似度で検索する。これにより配列上の文字が異なっても機能的に類似したテンプレートを検索できるようにする。また、標準的なBLASTn検索とSmith-Watermanアルゴリズムによるアライメントも併用することで取りこぼしを防いでいる。2nd

2.1.3 自然な構造への補正

  • どうしてもテンプレートが見つからない隙間領域は、自然ならせん構造になるよう幾何学的なルールベースアプローチで補完する。1st
  • DRfold2モデルを用いて、自然な構造になるよう微調整。1st

2.2 生成系DeepLearningアプローチ

3rd以下は軒並み生成系DeepLearningを主軸としたアプローチを取っていました。こちらも興味深く、各モデルの特徴を理解した様々な工夫が見られました。

2.2.1 Protenix

AlphaFold 3 の設計をもとに ByteDance(TikTokの親会社)により開発されたオープンソースで、DLモデルアプローチとしてはデファクトスタンダード的な立ち位置です。コンペ序盤からProtenixを使ってスコアを出すノートブックも公開されており、多くの参加者に注目されていました。

2.2.2 Boltz-1

こちらもProtenixと同じくAlphaFold 3ベースにMITが開発したオープンソースモデル。上位解法では、他のモデルとあわせて多様性向上のために活用されていました。

  • Protenix と合わせてアンサンブル。 3rd, 8th
  • 前述のDRfold2の適応最適化のガイド的にBoltz-1の予測構造を活用。1st

2.2.3 DRfold2

全体構造ではなく、塩基間の距離や角度を予測するのに特化したモデル。

  • Protenixをベースに予測した結果のうち、細かな部分だけをDRfold2で上書きする。10th
  • 前述しましたが、TBMで作った予測結果をDRfold2で自然な構造に微調整する方針で活用。1st

2.2.4 AIDO.RNA

構造データではなく、大量の「配列データ」だけを読み込んで、RNAの言語ルールを学習したモデル。

  • 通常は後述するMSAデータが必要だが計算に時間がかかる。AIDO.RNAで情報を補完することでMSAなしでProtenixの精度を高めた。6th

2.2.5 trRosetta2

AlphaFold以前は強豪だった、タンパク質構造予測の有名なモデル。

  • Protenix、DRfold2、trRosetta2の3つのモデルの良い部分だけを切りはり。10th

2.3 MSA(多重配列アラインメント)情報の活用

少し前述の内容と重複する内容もありますが、MSAをどのように活用したかという切り口でも見てみます。
MSAとは、進化的な関係にある複数の生物の配列データを、文字が縦に揃うように並べ直したデータのことで、構造予測では依然として重要な情報です。

今回は、主催者が提供したMSAデータは作成時期が少し古く、最新の実験データ(特にCASP16などの直近のターゲット)が含まれていないという問題もあり、いかにMSAの情報の質を高めたり、MSA使えない場合にどう耐えるか、という戦略が幅広く取られていました。MSA情報のケアが重要なことがわかります。

2.3.1 再生成

自分たちで最新のデータベースを使って作り直す。

  • 公式のrMSA作成パイプラインを使い、14日間かけてMSAをゼロから再生成。3rd

2.3.2 高速ツールによる独自構築

標準的なツール(Jackhmmerなど)ではなく、より高速でカスタマイズしやすいツールを使って独自のデータベースを構築する。

  • MMseqs2という非常に高速な検索ツールを採用、MSAが全く見つからない(親戚がいない)場合でもエラーにならないよう、「ダミーの特徴量」を入れてモデルを動かすフォールバック機能を実装。10th

2.3.3 MSAを使わない生成モデルの活用

MSAが存在しないRNAも存在するため、MSAに依存しすぎたモデルは極端に弱くなる。

  • AIDO.RNAにより進化的な文脈の埋め込み表現を獲得し、MSAの代わりとしてProtenixに入力。6th
  • MSAを使わず配列1本だけで予測するモデルを作成し、通常のMSAありProtenixとアンサンブル。7th

2.3.4 外部データの利用

  • 学習データの不足を補うため、CASP16の予測結果(Top-1予測)を「Pseudo-label(擬似正解ラベル)」として学習データに追加する。3rd, 10th

2.4 アンサンブル戦略

単一のモデルで全てのターゲットに対応することは困難なため、高度なアンサンブル戦略を取られています。

2.4.1 エネルギーベース選択

  • 生成された数十〜数百の構造候補に対し、物理化学的なエネルギー関数(Lennard-Jonesポテンシャルやクーロン力)を適用してスコアリングを行い、最も安定な構造(ベスト5)を選択する。8th, 10th

2.4.2 座標マージと部分的置換

異なるモデルの出力を部位ごとに切り貼りする。

  • 例えば、Protenixの出力をベース(1-5番目の予測)としつつ、3番目と4番目の予測スロットにはDRfold2の予測結果を、5番目にはtrRosetta2の予測結果を優先的に採用する。10th

2.4.3 カリキュラム学習と配列長による分割

RNAの配列長がモデルの学習難易度に直結することに着目した「カリキュラム学習」的なアプローチ。

  • 学習データを配列長(例:0-300nt, 300-500nt, 500nt+)でグループ分けし、まず短い配列でモデルを学習させて基本的な物理法則や局所構造を学ばせ、その後徐々に長い配列へと学習対象を広げる。推論時には、ターゲットの長さに応じて、その長さのレンジに特化したモデル(Specialized Model)を使用する。 5th

3 まとめと反省

それぞれの上位解法を見ると、多くの実験分析と構造生物学の知識に裏打ちされたエレガントな工夫がたくさんありました。触れきれていない工夫もまだあります。最新AIモデルを回すエンジニアリングだけでなく、ドメイン知識を用いた古典的な手法も有効であり、様々な独自性のある解法にあふれた良コンペだったと思います。反面、私は仮にTBMのアプローチ方針が有効だと分かっていたとしても、3ヶ月で同じ精度までパイプラインを開発できたとは思えないです。「楽しむためには強さがいる」ということで、こういった良コンペに楽しんで参加できるよう、精進していきたいなと思いました。

  • 銀メダル圏から盛大にシェイクする私。。。
    {9E481EFA-EE3F-4EA7-A9DD-37FB89F7AB2A}.png

ここまで読んでくださり、ありがとうございました!

11
5
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
11
5

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?