ぼっち論文サーベイメモ2 Advent Calendar 2024

State of AI Report 2024: Research

Last updated at 2024-12-11Posted at 2024-12-10

提供された情報源に基づいて、Researchに関する部分を詳細にまとめます。

2024年の生成AI研究は、モデル性能の向上と競争の激化が特徴です。情報源によると、OpenAIのGPT-4が長らくトップの性能を誇っていましたが、Claude 3.5 Sonnet、Gemini 1.5、Grok 2などのモデルが追い上げ、性能差は縮まっています。

OpenAI o1: OpenAIは、推論計算能力の強化に注力したo1をリリースしました。これは他の研究機関の追随を許さない、OpenAIの戦略的な優位性を示しています。
Llama 3: Metaは、オープンソースのLlama 3ファミリーをリリースしました。Llama 3.1 405Bは、GPT-4oやClaude 3.5 Sonnetに匹敵する性能を示し、オープンモデルが商用モデルとの性能差を埋めた最初の例となりました。

これらの進展により、モデル開発者は、新しい機能や製品の差別化に注力せざるを得なくなっています。

生成AIモデルの巨大なサイズと計算コストは、実用化における課題となっています。研究者は、モデルの効率化と軽量化に取り組んでおり、以下の点が注目されています。

モデル圧縮: モデルの層やニューロンを削減することで、性能を維持しつつサイズを縮小する研究が進んでいます。
蒸留: 大規模モデルの知識を小規模モデルに転移する蒸留技術が注目されています。GoogleのGemini 1.5 FlashやGemma 2は、蒸留によって軽量化されています。
量子化: モデルのパラメータの精度を下げることで、メモリ要件を削減する量子化技術が注目されています。MicrosoftのBitNetは、量子化によってメモリとエネルギーの消費を大幅に削減することに成功しています。
表現微調整: モデルの重みを変更せずに、内部表現を操作することで、モデルの動作を制御する表現微調整（ReFT）が注目されています。ReFTは、従来の重みベースの微調整方法に比べて、パラメータ数が大幅に少なく、デバイス上でのパーソナライズに役立つ可能性があります。

テキストだけでなく、画像、音声、動画、3Dモデル、さらには生物学的データなど、複数のモダリティを扱うマルチモーダルモデルの研究が活発化しています。

VLM: Vision-Language Model（VLM）は、画像とテキストを組み合わせたタスクを実行できます。主要な生成AIモデルは、すべて視覚機能を備えており、小規模モデルでも優れた結果を達成しています。
テキスト to ビデオ: Stability AIのStable Video Diffusionは、テキストプロンプトから高品質の動画を生成できる最初のモデルの1つです。Google DeepMindとOpenAIも、強力なテキスト to ビデオモデルを開発していますが、まだ一般公開されていません。
生物学: AlphaFold3は、タンパク質の構造予測において画期的な成果を上げました。DeepMindは、AlphaProteoというタンパク質設計モデルも発表しています。また、EvolutionaryScaleのESM3は、タンパク質の配列、構造、機能を学習するマルチモーダルモデルです。

大規模な計算クラスターの構築と維持は、ますます困難になっています。研究者は、計算効率を向上させるための新しいアプローチを探求しています。

分散型低通信（DiLoCo）: Google DeepMindは、デバイス間の通信を削減するDiLoCoという最適化アルゴリズムを提案しました。
データキュレーション: 効果的な事前学習には、データキュレーションが不可欠です。Google DeepMindのJESTは、学習過程でトレーニングデータの関連性を動的に評価し、計算コストを削減しつつ性能を維持します。

生成AIの利用に伴う倫理的な問題や安全性のリスクに対する懸念が高まっています。研究者は、これらの課題に対z索しています。

合成データ: 生成AIモデルのトレーニングに合成データを使用するケースが増えています。しかし、合成データの使用がモデルの劣化を引き起こす可能性があるという懸念も示されています。
データセットの汚染: トレーニングデータにテストデータや検証データが混入するデータセットの汚染が、モデルの性能を過剰に評価している可能性が指摘されています。
オープンソースモデル: オープンソースモデルの定義やライセンス、データセット、アクセス方法に関する透明性の問題が指摘されています。
jailbreaking: 生成AIモデルを不正な目的に利用しようとするjailbreakingの試みが相次いでいます。研究者は、jailbreakingに対する防御策を開発していますが、攻撃手法も進化しており、いたちごっこの様相を呈しています。
解釈可能性: 生成AIモデルの判断過程を理解し、説明する解釈可能性の研究が重要視されています。

生成AIの研究は、今後ますます発展し、以下のような分野が注目されると考えられます。

AGI: Artificial General Intelligence（AGI）の開発は、生成AI研究の究極の目標です。ARC賞など、AGIの開発を促進するための取り組みも始まっています。
推論能力の向上: 生成AIモデルの推論能力を向上させるための研究が重要視されています。Quiet-STaRやGoogle DeepMindの研究は、推論能力の向上に貢献する可能性があります。
オープンエンド性: 新しい知識を生成できるオープンエンドな生成AIシステムの開発が注目されています。
信頼性の向上: 生成AIモデルの信頼性を向上させるための研究が重要視されています。hallucinationやconfabulationなどの問題に対処するための研究が進んでいます。

生成AIの研究は、急速に進歩しており、その成果は社会に大きな影響を与える可能性があります。今後も、倫理的な配慮と安全性の確保を重視しながら、研究開発を進めていく必要があります。