NeurlPS2024 論文可視化マップと注目論文

Last updated at 2025-03-07Posted at 2025-02-21

メモです
NeurIPSはAI分野のトップカンファレンスです。

論文の可視化マップ

NeurIPSでは非常にたくさんの分野の論文が発表されました。
それをクラスタリングして可視化してくれたツールが以下になります。
https://tinyurl.com/23dtyxff

こういう感じです。●を押すと論文のリンクへ飛べます。

大きい(投稿数が多い)分野で言うと以下です

ML Optimization
LLM
RLHF
Distribution Generalization
Text-to-Image
Adversarial Attacks
Multimodal LM

注目論文

以下、要約してくれているサイトのさらに生成AIによる要約
https://www.zeta-alpha.com/post/a-guide-to-neurips-2024/

1. グラフニューラルネットワーク (GNN)

論文タイトル:

Exploitation of a Latent Mechanism in Graph Contrastive Learning: Representation Scattering
著者: D. He, L. Shan, J. Zhao, H. Zhang, Z. Wang, W. Zhang

概要:
この論文では、Graph Contrastive Learning (GCL) の新たなメカニズムである Representation Scattering（表現の散乱） を提案し、GCLの性能向上に寄与することを示しています。著者らは、Scattering Graph Representation Learning (SGRL) という新しいフレームワークを導入し、表現の多様性を向上させるトポロジーベースの制約メカニズムを加えました。複数のベンチマークでの実験結果から、SGRLが既存のGCL手法を上回る性能を発揮することが示されました。

2. 機械学習最適化

論文タイトル:

Convolutional Differentiable Logic Gate Networks
著者: F. Petersen, H. Kuehne, C. Borgelt, J. Welzel, S. Ermon

概要:
本研究では、論理ゲートネットワークを 微分可能な形式 に変換することで、高速かつ効率的な推論を可能にする手法を提案しています。従来のニューラルネットワークよりも計算コストを削減しつつ、ディープロジックゲートツリー畳み込み、論理ORプーリング、残差初期化 などの手法を導入しました。結果として、CIFAR-10において86.29%の精度を達成し、従来の最先端手法よりも29倍小さいネットワークサイズで動作 します。

3. Attention機構 & Transformerの変種

論文タイトル:

xLSTM: Extended Long Short-Term Memory
著者: M. Beck, K. Pöppel, M. Spanring, A. Auer, O. Prudnikova, M. K. Kopp, G. Klambauer, J. Brandstetter, S. Hochreiter

概要:
この研究では、従来のLSTMの制約を克服するための2つの新しいLSTMバリエーション を提案しています。

sLSTM: スカラー記憶と指数関数的ゲーティングを導入
mLSTM: 行列記憶と共分散更新則を採用

これにより、並列化が可能になり、TransformerやState Space Modelsと競争できるスケーラビリティを実現 しました。

4. 時系列 & ニューラルダイナミクス

論文タイトル:

Probabilistic Emulation of a Global Climate Model with Spherical DYffusion
著者: S. R. Cachay, B. Henn, O. Watt-Meyer, C. S. Bretherton, R. Yu

概要:
本研究では、グローバル気候モデルの確率的エミュレーションのための新しい手法「Spherical DYffusion」 を提案しています。

Spherical Fourier Neural Operator と DYffusionフレームワーク を統合
6時間ごとのシミュレーションを100年間安定的に実行可能
従来の手法よりも物理的に一貫性のある気候予測が可能

5. 3Dシーン理解

論文タイトル:

Humanoid Locomotion as Next Token Prediction
著者: I. Radosavovic, J. Rajasegaran, B. Shi, B. Zhang, S. Kamat, K. Sreenath, T. Darrell, J. Malik

概要:
本研究では、ヒューマノイドの移動制御を次のトークン予測問題としてモデル化する新手法 を提案。

因果的トランスフォーマーモデル を用いて、センシング・モーターシーケンスを予測
データセットには ニューラルネットワークポリシー、モデルベース制御、モーションキャプチャ、YouTube動画 を活用
サンフランシスコの街中をゼロショットで歩行可能なヒューマノイドロボットを実現

6. 大規模言語モデル (LLM)

論文タイトル:

Not All Tokens Are What You Need for Pretraining
著者: Z. Lin, Z. Gou, Y. Gong, X. Liu, Y. Shen, R. Xu, C. Lin, Y. Yang, J. Jiao, N. Duan, W. Chen

概要:
本研究では、Selective Language Modeling (選択的言語モデリング) を導入し、学習すべきトークンを選別することで、LLMの事前学習効率を向上 させました。

全トークンに一律の損失を適用せず、適切なトークンのみを学習
MATHデータセットで最先端の精度を達成
従来のモデルよりも 少ないトークン数でより良い性能を発揮

7. ドメイン一般化

論文タイトル:

Many-Shot In-Context Learning
著者: R. Agarwal, A. Singh, et al.

概要:
多数の例をコンテキストに取り込む「Many-Shot In-Context Learning (ICL)」 を提案し、従来のFew-Shot ICLを超えるパフォーマンスを実証しました。

数百から数千の例を活用可能に
Reinforced ICLとUnsupervised ICLを導入し、精度を向上
事前学習バイアスの克服や高次元関数の学習が可能

8. マルチモーダル言語モデル

論文タイトル:

Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
著者: S. Tong, E. L. Brown II, et al.

概要:
視覚中心のマルチモーダルLLM「Cambrian-1」 を提案し、視覚表現学習とLLMの統合を実現しました。

新ベンチマークCV-Benchを提案
Spatial Vision Aggregatorで視覚情報を強化
最先端性能を達成し、モデル・データセット・コードを完全公開

9. テキストから画像生成

論文タイトル:

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
著者: K. Tian, Y. Jiang, et al.

概要:
画像生成を「次スケール予測」に基づいて行う新しい手法「VAR」 を提案。

次トークン予測よりも高品質な画像生成が可能
従来の拡散モデルよりも20倍高速
ImageNetで最先端のFID・ISスコアを達成

10. 強化学習

論文タイトル:

Iterative Reasoning Preference Optimization
著者: R. Y. Pang, W. Yuan, et al.

概要:
言語モデルの推論タスクを最適化するための新手法「IRPO」 を提案。

競合するChain-of-Thoughtの間で最適なものを選択
GSM8K、MATH、ARC-Challengeで高精度を達成

日本ディープラーニング協会によるまとめ

こちらで日本ディープラーニング協会主催でNeurIPS 2024 技術報告会をして頂いています。
https://jdla.connpass.com/event/343969/

一応、非公開動画になっていますので動画へのURLと内容の転記は差し控えますが、
上記に含まれてない論文タイトルだけ列挙させていただきます。

The PRISM AI alignment
PRISMデータセットグローバルな人間価値観の収集
Guiding a Diffusion Modelwith a Bad Version of itself
Diffusion モデルの自己ガイダンス手法
Amortizing intractable inference in diffusion modelsforvision, language, and control
マルチモーダル拡散モデルー複合タスクへの適用
RGFN: Synthesizable MotecularGeneration Using GFlowNets
分子・材料デザインへの生成応用 (GFlowNets)
HardCore Generation: Generating Hard UNSAT Problems for Data Augmentation
難問生成によるデータ拡張ーアルゴリズム分野への波及
The Unmet Promise of Synthetic Training Images: Using Retrieved Real Images Performs Better
合成画像 vs 実画像データモデル訓練への影響
AlphaVerus: Bootstrapping Formally Verified Code Generation through Self-Improving Translation and Treefinement
コードや数学問題へのRL応用　厳密解の応用
OSWorld
OS上のAI agent
Balanctng Context Length and Mixtng Times for RL at Scale
長いコンテキストへの対処
Grounding Multimodal Largee Language Models in Actions
大規模言語モデル(LLM)の行動への適用
Parseval Regularization for Continual RL
継続学習と生涯学習 (Continual RL)

そのうち公開されるかもしれないのでチャンネルだけ紹介しておきます。
https://www.youtube.com/@JDLA2017
⇒2025/3月追記
一般公開されました
https://www.youtube.com/watch?v=V88ct0OeT7Y

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up