メモです
NeurIPSはAI分野のトップカンファレンスです。
論文の可視化マップ
NeurIPSでは非常にたくさんの分野の論文が発表されました。
それをクラスタリングして可視化してくれたツールが以下になります。
https://tinyurl.com/23dtyxff
大きい(投稿数が多い)分野で言うと以下です
- ML Optimization
- LLM
- RLHF
- Distribution Generalization
- Text-to-Image
- Adversarial Attacks
- Multimodal LM
注目論文
以下、要約してくれているサイトのさらに生成AIによる要約
https://www.zeta-alpha.com/post/a-guide-to-neurips-2024/
1. グラフニューラルネットワーク (GNN)
論文タイトル:
Exploitation of a Latent Mechanism in Graph Contrastive Learning: Representation Scattering
著者: D. He, L. Shan, J. Zhao, H. Zhang, Z. Wang, W. Zhang
概要:
この論文では、Graph Contrastive Learning (GCL) の新たなメカニズムである Representation Scattering(表現の散乱) を提案し、GCLの性能向上に寄与することを示しています。著者らは、Scattering Graph Representation Learning (SGRL) という新しいフレームワークを導入し、表現の多様性を向上させるトポロジーベースの制約メカニズムを加えました。複数のベンチマークでの実験結果から、SGRLが既存のGCL手法を上回る性能を発揮することが示されました。
2. 機械学習最適化
論文タイトル:
Convolutional Differentiable Logic Gate Networks
著者: F. Petersen, H. Kuehne, C. Borgelt, J. Welzel, S. Ermon
概要:
本研究では、論理ゲートネットワークを 微分可能な形式 に変換することで、高速かつ効率的な推論を可能にする手法を提案しています。従来のニューラルネットワークよりも計算コストを削減しつつ、ディープロジックゲートツリー畳み込み、論理ORプーリング、残差初期化 などの手法を導入しました。結果として、CIFAR-10において86.29%の精度を達成し、従来の最先端手法よりも29倍小さいネットワークサイズで動作 します。
3. Attention機構 & Transformerの変種
論文タイトル:
xLSTM: Extended Long Short-Term Memory
著者: M. Beck, K. Pöppel, M. Spanring, A. Auer, O. Prudnikova, M. K. Kopp, G. Klambauer, J. Brandstetter, S. Hochreiter
概要:
この研究では、従来のLSTMの制約を克服するための2つの新しいLSTMバリエーション を提案しています。
- sLSTM: スカラー記憶と指数関数的ゲーティングを導入
- mLSTM: 行列記憶と共分散更新則を採用
これにより、並列化が可能になり、TransformerやState Space Modelsと競争できるスケーラビリティを実現 しました。
4. 時系列 & ニューラルダイナミクス
論文タイトル:
Probabilistic Emulation of a Global Climate Model with Spherical DYffusion
著者: S. R. Cachay, B. Henn, O. Watt-Meyer, C. S. Bretherton, R. Yu
概要:
本研究では、グローバル気候モデルの確率的エミュレーションのための新しい手法「Spherical DYffusion」 を提案しています。
- Spherical Fourier Neural Operator と DYffusionフレームワーク を統合
- 6時間ごとのシミュレーションを100年間安定的に実行可能
- 従来の手法よりも物理的に一貫性のある気候予測が可能
5. 3Dシーン理解
論文タイトル:
Humanoid Locomotion as Next Token Prediction
著者: I. Radosavovic, J. Rajasegaran, B. Shi, B. Zhang, S. Kamat, K. Sreenath, T. Darrell, J. Malik
概要:
本研究では、ヒューマノイドの移動制御を次のトークン予測問題としてモデル化する新手法 を提案。
- 因果的トランスフォーマーモデル を用いて、センシング・モーターシーケンスを予測
- データセットには ニューラルネットワークポリシー、モデルベース制御、モーションキャプチャ、YouTube動画 を活用
- サンフランシスコの街中をゼロショットで歩行可能なヒューマノイドロボットを実現
6. 大規模言語モデル (LLM)
論文タイトル:
Not All Tokens Are What You Need for Pretraining
著者: Z. Lin, Z. Gou, Y. Gong, X. Liu, Y. Shen, R. Xu, C. Lin, Y. Yang, J. Jiao, N. Duan, W. Chen
概要:
本研究では、Selective Language Modeling (選択的言語モデリング) を導入し、学習すべきトークンを選別することで、LLMの事前学習効率を向上 させました。
- 全トークンに一律の損失を適用せず、適切なトークンのみを学習
- MATHデータセットで最先端の精度を達成
- 従来のモデルよりも 少ないトークン数でより良い性能を発揮
7. ドメイン一般化
論文タイトル:
Many-Shot In-Context Learning
著者: R. Agarwal, A. Singh, et al.
概要:
多数の例をコンテキストに取り込む「Many-Shot In-Context Learning (ICL)」 を提案し、従来のFew-Shot ICLを超えるパフォーマンスを実証しました。
- 数百から数千の例を活用可能に
- Reinforced ICLとUnsupervised ICLを導入し、精度を向上
- 事前学習バイアスの克服や高次元関数の学習が可能
8. マルチモーダル言語モデル
論文タイトル:
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
著者: S. Tong, E. L. Brown II, et al.
概要:
視覚中心のマルチモーダルLLM「Cambrian-1」 を提案し、視覚表現学習とLLMの統合を実現しました。
- 新ベンチマークCV-Benchを提案
- Spatial Vision Aggregatorで視覚情報を強化
- 最先端性能を達成し、モデル・データセット・コードを完全公開
9. テキストから画像生成
論文タイトル:
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
著者: K. Tian, Y. Jiang, et al.
概要:
画像生成を「次スケール予測」に基づいて行う新しい手法「VAR」 を提案。
- 次トークン予測よりも高品質な画像生成が可能
- 従来の拡散モデルよりも20倍高速
- ImageNetで最先端のFID・ISスコアを達成
10. 強化学習
論文タイトル:
Iterative Reasoning Preference Optimization
著者: R. Y. Pang, W. Yuan, et al.
概要:
言語モデルの推論タスクを最適化するための新手法「IRPO」 を提案。
- 競合するChain-of-Thoughtの間で最適なものを選択
- GSM8K、MATH、ARC-Challengeで高精度を達成
日本ディープラーニング協会によるまとめ
こちらで日本ディープラーニング協会主催でNeurIPS 2024 技術報告会をして頂いています。
https://jdla.connpass.com/event/343969/
一応、非公開動画になっていますので動画へのURLと内容の転記は差し控えますが、
上記に含まれてない論文タイトルだけ列挙させていただきます。
- The PRISM AI alignment
PRISMデータセット グローバルな人間価値観の収集 - Guiding a Diffusion Modelwith a Bad Version of itself
Diffusion モデルの自己ガイダンス手法 - Amortizing intractable inference in diffusion modelsforvision, language, and control
マルチモ ー ダル拡散モデル ー 複合タスクへの適用 - RGFN: Synthesizable MotecularGeneration Using GFlowNets
分子・材料デザインへの生成応用 (GFlowNets) - HardCore Generation: Generating Hard UNSAT Problems for Data Augmentation
難問生成によるデ ー タ拡張 ー アルゴリズム分野への波及 - The Unmet Promise of Synthetic Training Images: Using Retrieved Real Images Performs Better
合成画像 vs 実画像データ モデル訓練への影響 - AlphaVerus: Bootstrapping Formally Verified Code Generation through Self-Improving Translation and Treefinement
コードや数学問題へのRL応用 厳密解の応用 - OSWorld
OS上のAI agent - Balanctng Context Length and Mixtng Times for RL at Scale
長いコンテキストへの対処 - Grounding Multimodal Largee Language Models in Actions
大規模言語モデル(LLM)の行動への適用 - Parseval Regularization for Continual RL
継続学習と生涯学習 (Continual RL)
そのうち公開されるかもしれないのでチャンネルだけ紹介しておきます。
https://www.youtube.com/@JDLA2017