ぼっち論文サーベイメモ2 Advent Calendar 2024

State of AI Report 2024: Research - マルチモーダル（動画生成、生物学）

Posted at 2024-12-11

State of AI Report 2024(Benaich, 2024)

stateOfAI2024出版時点（2024年10月）の情報であり、それ以降のアップデート（HunyuanVideoやSoraの一般リリース）などは反映されていません．

text to video関連の研究

Stable Video Diffusionの登場

text to video分野において、Stability AIが開発したStable Video Diffusionは、高品質でリアルな動画をテキストプロンプトから生成できる最初のモデルの一つとして注目されています。このモデルは、以下の3段階のトレーニングプロセスを採用しています。

画像事前学習: 大規模なテキスト to 画像データセットを用いて画像生成モデルを事前学習します。
動画事前学習: 大規模で厳選された低解像度動画データセットを用いて、動画生成モデルを事前学習します。
ファインチューニング: より小規模で高解像度の動画データセットを用いて、モデルをファインチューニングします。

Stable Video Diffusionは、2024年3月にStable Video 3Dへと進化しました。これは、3Dオブジェクトデータセットを用いた追加学習により、3D空間におけるオブジェクトの動きを予測できるようになりました。

Google DeepMindとOpenAIの取り組み

Google DeepMindとOpenAIも、強力なテキスト to ビデオモデルを開発しています。しかし、これらのモデルへのアクセスは厳しく制限されており、技術的な詳細はあまり公開されていません。

OpenAIのSora: 最大1分の動画生成が可能で、3D空間における一貫性、オブジェクトの永続性、高解像度を維持できる点が特徴です。Soraは、時空間パッチと呼ばれる、画像コンテンツを表現するための特殊なトークンを用いることで、膨大な動画データセットから効率的に学習します。また、従来のモデルのように画像のクロップやリサイズを行わず、元のサイズとアスペクト比で学習することで、画質の向上を実現しています。
Google DeepMindのVeo: テキストとオプションの画像プロンプトに加えて、ノイズを加えた圧縮動画を入力として受け取ります。これらの入力は、エンコーダと潜在拡散モデルによって処理され、独自の圧縮動画表現が生成されます。そして、この表現をデコードすることで、最終的な高解像度動画が生成されます。

MetaのMovie Gen

Metaは、Make-A-SceneとLlamaファミリーの技術を統合し、Movie Genというテキスト to ビデオモデルを開発しました。Movie Genの特徴は以下の通りです。

マルチモーダル生成: 300億パラメータの動画生成モデルと130億パラメータの音声生成モデルを組み合わせることで、16秒の動画（16フレーム/秒）と45秒の音声クリップを生成できます。
動画編集機能: 高度な画像編集技術と動画生成技術を組み合わせることで、元のコンテンツを維持しつつ、局所的な編集と全体的な変更の両方を実現できます。
トレーニングデータ: ライセンス取得済みのデータセットと公開されているデータセットを組み合わせて使用しています。
評価: A/B評価を用いた人間の評価により、主要な4つの機能すべてにおいて、競合する業界モデルよりも高い評価を得ています。

Metaは、将来的にMovie Genを公開する予定ですが、具体的な時期やリリース戦略は未定です。

text to videoの課題と展望

text to video技術は、まだ発展途上にあり、いくつかの課題があります。

計算コスト: 高品質な動画を生成するには、依然として高性能なGPUと多くの計算時間が必要です。
一貫性: 長時間の動画生成において、シーンやオブジェクトの一貫性を維持することが難しい場合があります。
編集機能: 動画編集機能は、まだ限定的であり、より高度な編集操作を実現する必要があります。

しかし、Stable Video Diffusion、Sora、Veo、Movie Genなどの登場により、text to video技術は急速に進歩しています。今後、計算コストの削減、一貫性の向上、編集機能の強化などが実現されれば、映画、広告、ゲームなど、様々な分野で活用されることが期待されます。

生物学分野におけるAIの進歩

提供された資料に基づいて、生物学分野におけるAIの応用について詳しく説明します。

AlphaFold 3: タンパク質を超えて

DeepMindとIsomorphic Labsは、AlphaFold 2の後継モデルであるAlphaFold 3をリリースしました。このモデルは、低分子薬、DNA、RNA、抗体がタンパク質標的とどのように相互作用するかをモデル化できるようになりました。AlphaFold 3は、AlphaFold 2から大幅なアルゴリズムの変更が行われており、すべての等価性制約が削除され、構造モジュールが拡散モデルに置き換えられました。これにより、特に低分子ドッキングにおいて、AlphaFold 3は他の手法と比較して非常に優れた性能を示すとされていますが、より強力なベースラインとの比較は行われていません。

また、AlphaFold 3のコードは公開されていません。この決定は物議を醸し、多くの人がNatureを非難しました。政治的な側面はさておき、スタートアップ企業やAIコミュニティは、独自のモデルを標準的な代替手段にしようと競争を繰り広げています。

AlphaFold 3のクローンを作成する競争

AlphaFold 3のコードが公開されていないため、スタートアップ企業やAIコミュニティは、独自のモデルを標準的な代替手段にしようと競争を繰り広げています。

BaiduのHelixFold3: リガンド結合においてAlphaFold 3に匹敵する性能を持つモデル。Webサーバーを提供しており、コードは非商用利用に限り完全にオープンソース化されています。
Chai DiscoveryのChai-1: OpenAIが支援するChai Discoveryがリリースした分子構造予測モデル。その性能と高品質な実装により、人気が高まっています。Webサーバーは、商用創薬にも利用可能です。
完全にオープンソース化されたモデル: 制限なしに利用できる（例えば、他のモデルのトレーニングにアウトプットを使用できる）完全にオープンソース化されたモデルはまだ登場していません。

等価性制約の終焉と復活

2024年の生物学分野におけるAIのトレンドとして、等価性制約の終焉と復活が挙げられます。

Apple: 等価性制約を使用しない、Transformerエンコーダを備えた非等価拡散モデルを使用して、小分子の3D構造を予測する手法を発表。このドメインに依存しないモデルを使用しても、一般化能力に悪影響を及ぼさないことを示し、十分な規模を使用すれば、専門的なモデルを一貫して凌駕できることが示されました。
AlphaFold 3: 前のモデルからすべての等価性およびフレーム制約を削除し、別の拡散プロセスとオーグメンテーション、そしてスケールを組み合わせたモデル。

これらの結果から、十分な規模のデータと計算能力があれば、等価性制約は必ずしも必要ではない可能性が示唆されています。しかし、等価性制約を完全に放棄するには時期尚早であり、今後の研究が必要です。

EvolutionaryScaleのESM3

Metaは、2019年からアミノ酸とタンパク質の大規模データベースでトレーニングされたTransformerベースの言語モデル（Evolutionary Scale Models）を公開していました。Metaが2023年にこれらの取り組みを終了した際、チームはEvolutionaryScaleを設立しました。2024年には、シーケンス、構造、機能についてトレーニングされた最先端のマルチモーダル生成モデルESM3をリリースしました。

ESM3は、3つのモダリティそれぞれを表すトークンを別々のトラックとして単一の潜在空間に融合する双方向Transformerです。従来のマスク言語モデリングとは異なり、ESM3のトレーニングプロセスでは可変マスキングスケジュールを使用し、モデルにマスクされたシーケンス、構造、機能の多様な組み合わせを提示します。ESM3は、モダリティの任意の組み合わせに対する補完を予測することを学習します。

ESM3は、既知のものとシーケンス類似性が低い新しい緑色蛍光タンパク質（GFP）を生成するように促されました。生成されたシーケンスは、CRISPR-Casアトラスの天然タンパク質と比較して4.8倍多様です。最も近い天然タンパク質との平均同一性は、通常40〜60％の間に収まりました。

生物学におけるAIの評価とベンチマーク

生物学分野におけるAIの評価とベンチマークは、まだ十分ではありません。

AlphaFold 3の論文: より高度な従来のドッキングパイプラインがAlphaFold 3を上回ることがInductive bioによって示されたため、いくつかの批判を受けました。
Polaris: Valence Labsが主導する新しい業界コンソーシアム（Recursion、Relay、Merck、Novartis J&J、Pfizerなどの大手製薬会社を含む）は、AI主導の創薬のためのベンチマークプラットフォームであるPolarisを開発しています。Polarisは、高品質なデータセットを提供し、評価を促進し、ベンチマークを認定します。

生物学におけるAIの進歩を促進するためには、高品質なデータセットと評価指標の開発が不可欠です。

その他の生物学分野におけるAIの応用

膜タンパク質の構造予測: 可溶性ではないが膜環境にあるタンパク質の構造を特徴付け、生成することは困難であり、膜受容体を標的とする薬剤の開発を妨げています。AlphaFold 2とシーケンスモデルは、これを改善し、創薬者にこれまでアクセスできなかったフォールドを持つより大きな可溶性プロテオームへのアクセスを提供できるでしょうか？
fMRIデータからの脳活動の学習: 脳活動と視覚刺激の関係をモデル化するAIモデルが開発されています。これらのモデルは、脳の働きを理解し、神経疾患の診断や治療に役立つ可能性があります。
脳の記録からの音声の解読: 埋め込み型マイクロ電極を用いて脳の記録から音声を解読することで、発話障害のある患者のコミュニケーションを可能にすることができます。

結論

生物学分野におけるAIの応用は、急速に進歩しています。AlphaFoldなどのタンパク質構造予測モデルは、創薬や病気の理解に革命を起こす可能性を秘めています。また、脳活動の解読や音声の生成など、他の分野でもAIは大きな進歩を遂げています。

今後の課題としては、AIモデルの精度と信頼性の向上、倫理的な問題への対応などが挙げられます。しかし、AIは生物学の分野に大きな変革をもたらす可能性を秘めており、今後の発展に期待が寄せられています。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up