はじめに
ICLR(International Conference on Learning Representations)2023の
OpenReviewで読むことができる論文のnotable top5%を紹介していきます。
※間違っている所もあると思いますので、留意して読んで頂けると幸いです
目次
- Is Conditional Generative Modeling all you need for Decision Making?
- The Lie Derivative for Measuring Learned Equivariance
- Agree to Disagree: Diversity through Disagreement for Better Transferability
- Efficient Conditionally Invariant Representation Learning
- Aligning Model and Macaque Inferior Temporal Cortex Representations Improves Model-to-Human Behavioral Alignment and Adversarial Robustness
- Transformers Learn Shortcuts to Automata
- In-context Reinforcement Learning with Algorithm Distillation
- Selection-Inference: Exploiting Large Language Models for Interpretable Logical Reasoning
- Compressing multidimensional weather and climate data into neural networks
- Confidential-PROFITT: Confidential PROof of FaIr Training of Trees
- Near-optimal Coresets for Robust Clustering
- Targeted Hyperparameter Optimization with Lexicographic Preferences Over Multiple Objectives
- Mastering the Game of No-Press Diplomacy via Human-Regularized Reinforcement Learning and Planning
- Efficient Attention via Control Variates
- SAM as an Optimal Relaxation of Bayes
- Learning on Large-scale Text-attributed Graphs via Variational Inference
- Extreme Q-Learning: MaxEnt RL without Entropy
- Efficiently Computing Nash Equilibria in Adversarial Team Markov Games
- Simplified State Space Layers for Sequence Modeling
- Moving Forward by Moving Backward: Embedding Action Impact over Action Semantics
- SimPer: Simple Self-Supervised Learning of Periodic Targets
- PaLI: A Jointly-Scaled Multilingual Language-Image Model
- Sample-Efficient Reinforcement Learning by Breaking the Replay Ratio Barrier
- Dr.Spider: A Diagnostic Evaluation Benchmark towards Text-to-SQL Robustness
- Temporal Domain Generalization with Drift-Aware Dynamic Neural Networks
Is Conditional Generative Modeling all you need for Decision Making?
The Lie Derivative for Measuring Learned Equivariance
Agree to Disagree: Diversity through Disagreement for Better Transferability
Efficient Conditionally Invariant Representation Learning
Aligning Model and Macaque Inferior Temporal Cortex Representations Improves Model-to-Human Behavioral Alignment and Adversarial Robustness
Transformers Learn Shortcuts to Automata
Transformerモデルが有限状態オートマトン(finite-state automaton)の計算を効率的に模倣できるかを理論的および実験的に調査し、short-cuts、つまり効率的に特定のタスクを実行できるようになる特定のパターンを学ぶことができることを示した。
先行研究ではRNN(Recurrent Neural Networks)がこのような計算を自然に行うとされている。
この研究では、RNNとは異なり、非再帰的なTransformerでもオートマトンの再帰的な状態遷移を、より単純な構造で表現し直すことで効率的に計算できることを示した。
In-context Reinforcement Learning with Algorithm Distillation
Selection-Inference: Exploiting Large Language Models for Interpretable Logical Reasoning
Compressing multidimensional weather and climate data into neural networks
多次元の気象および気候データをニューラルネットワークにより圧縮する新しい圧縮手法についての論文。
先行研究の問題点としては、既存の手法では特定の種類のデータや特定の状況下でのみ効果的であることが指摘されている。
この研究では、ニューラルネットワークに気象データを過学習させることでデータを圧縮するという新しい手法により広範な状況やデータタイプに対応できる。これにより、より汎用性の高いモデルの開発が可能になる。
また、出力スケーリング、フーリエ特徴、スキップ接続、バッチ正規化を用いることでより圧縮誤差を減らすことが実験で示されている。
Confidential-PROFITT: Confidential PROof of FaIr Training of Trees
Near-optimal Coresets for Robust Clustering
k-meansのようなクラスタリングにおいて、外れ値によるロバスト性の問題はデータサイエンスや機械学習において大きな課題である。
そこで、コアセット(core-sets)という、データセットの分布を維持しつつ小さくしたデータセットを用いることで、ロバスト性を高める手法がある。
先行研究では、コアセットのサイズに(k + m)の指数関数的依存があったり、外れ値の数に対する保証が弱かった。この論文では、サイズがほぼ線形依存であり、コアセット構築の速度が向上した。また、外れ値をコアセットに入れ、データセットの特性を崩さないことで精度の向上が見られた。
具体的な手法としては、まず外れ値(outlier)をm個とし、クラスタから最も遠いm個の点を外れ値とする。この外れ値をコアセットに直接組み込む。しかし、それでは外れ値にモデルが過剰反応してしまうので、各クラスタ中心からの距離を基準とした重み付けをデータセットに行う。
実際のデータセットに対する実験を通じて、提案されたコアセットがサイズと精度のトレードオフにおいて、一般的なベースラインを大きく上回ることを示している。
Targeted Hyperparameter Optimization with Lexicographic Preferences Over Multiple Objectives
機械学習におけるハイパーパラメータ最適化(HPO)は、多目的最適化問題として研究される。従来の多目的HPO方法は、パレート最適解の候補を多く提供できるが、どれを選ぶかは使用者の判断であることが多く、これは非効率である。
この論文では、「Target HPO」という手法を提案。ユーザーが複数の目標に対して優先順位を設定し、それに基づいてハイパーパラメータの設定を全体的に順序づけることができる。
ハイパーパラメータを評価する際、重要度の順に評価していく(lexicographic preferences)。この提案アルゴリズムをLexiFlowという。これはランダム直接探索に基づき、勾配情報を必要としないため、勾配が利用できないか信頼性が低い問題に有利である。
例えば、予測精度の目標が0.90であり、計算コストの許容範囲が最大100と設定されているとする。LexiFlowは、まず予測精度を最大化するためのハイパーパラメータ構成を見つけることに集中する。結果、ある構成が予測精度0.91で計算コストが120の結果を出したとすると、この構成は第一の目標を満たしているが、計算コストが許容範囲を超えているため、改善の余地がある。
次に、LexiFlowは計算コストを100以下に抑えながら、予測精度を0.90以上に保つ新たなハイパーパラメータ構成を探索する。もし新しい構成が予測精度0.92で計算コストが99だった場合、この構成は両方の目標を満たしているため、現在の最良の構成となる。
モデルのチューニング、XGBoostでのチューニング、遺伝子発現予測のためのランダムフォレストと特徴選択の組み合わせ、および過剰適合の緩和の3つの実験において優れた結果を示した。
Mastering the Game of No-Press Diplomacy via Human-Regularized Reinforcement Learning and Planning
Efficient Attention via Control Variates
Random-feature-based attention(RFA)という既存のsoftmax attentionの近似法をベースとして、制御変数を使用して計算効率はそのままに近似の質を向上させるEfficient Attention via Control Variates(EVA)という手法を提案。
制御変数(control variates)」というのは、統計学や数値計算において、ランダムなサンプリングの結果による推定のバリアンス(ばらつき)を減らすために使用される。推定をより安定させ、より正確にすることを目的としている。
Random-feature-based attention (RFA)は、softmax attentionを効率よく近似する手法。softmax関数による計算コストが大きい問題に対処するため、指数関数の和を近似することで、計算量を削減する。
attentionを計算する際に、大きなシーケンス全体を一度に扱うのではなく、小さな部分集合に分割して、各部分集合でattentionの近似を行う。各部分集合においては、制御変数を用いて、その部分集合のattentionをより正確に近似する。
つまり、各部分集合に対して、それぞれ最適化された制御変数を用いることで、計算コストをかけずにsoftmax attentionの精度を保つことができる。
視覚タスクと言語タスクの両方において最先端の効率的なattentionよりも優れていることが実証した。
SAM as an Optimal Relaxation of Bayes
Learning on Large-scale Text-attributed Graphs via Variational Inference
Extreme Q-Learning: MaxEnt RL without Entropy
Efficiently Computing Nash Equilibria in Adversarial Team Markov Games
敵対的チームマルコフゲームにおけるナッシュ均衡を計算するための新しいアルゴリズムを提案。敵対的チームマルコフゲームは、同じ目標を持つプレイヤーのチームが敵プレイヤーと対峙するゲーム。
先行研究は、ナッシュ均衡を計算する際に、ゲームの種類を完全競争または完全協力に限定したり、実用的でない強い仮定を設けており、計算不可能性の壁に直面していた。
本研究は、チームのプレイヤー間での調整やコミュニケーションを必要とせず、実際のゲームのパラメータに基づいて多項式時間でナッシュ均衡を見つけることができる最初のアルゴリズムを提案。
具体的な手法としては、チーム内の各プレイヤーが独立した方策勾配ステップを実行する(Independent Policy GradientMax (IPGmax)という)。
方策勾配ステップとは、エージェントが取る行動の確率分布をパラメータ化した状態で、方策に対する報酬の勾配を計算し、最大の報酬が得られる勾配の方向にパラメータを調整する行為のこと。
著者はIPGmaxがε-近似ナッシュ均衡に収束することを理論的に証明。
Simplified State Space Layers for Sequence Modeling
Moving Forward by Moving Backward: Embedding Action Impact over Action Semantics
SimPer: Simple Self-Supervised Learning of Periodic Targets
現実の自然界での色々な振る舞いは、周期的または準周期的な変化であることが多い。
このような現実の自然界の振る舞いをニューラルネットワークで学習するには、教師データが多くなく、半教師なし学習や教師なし学習、自己教師あり学習(SSL)を行う事は非常に有益である。しかし、従来のSSLでは周期的な特徴を見落としがちである。
論文では、データ内の周期情報を学習するためのシンプルなSSLであるSimPerを提案。
DataAugmentationに工夫を加え、周期的な特徴量の類似性を測り、新しい対照損失関数を用いることで精度を向上。
具体的には、①FPSの変更などの時間的なDataAugumentation②グレースケール変換などの非時間的なDataAugumentationを順に行う。
その後、③エンコーダにより特徴抽出し、対照損失をとる。
この時、対照損失は、特徴量の最大クロス相関(MXCorr)、正規化パワースペクトル密度(nPSD)を入力値とし、連続値でも計算できるように改良したInfoNCELossにより計算。
ラベルなしデータのみを使用して汎化能力を向上。
人間の行動分析などのタスクで、最新のSSLと比べて高い精度を示している。
さらに、ラベル付きデータを使用した従来の学習方法よりも優れた性能を示している。
PaLI: A Jointly-Scaled Multilingual Language-Image Model
Sample-Efficient Reinforcement Learning by Breaking the Replay Ratio Barrier
Dr.Spider: A Diagnostic Evaluation Benchmark towards Text-to-SQL Robustness
Temporal Domain Generalization with Drift-Aware Dynamic Neural Networks
時間的ドメイン一般化、つまり時間経過によるデータ分布の変化(ドリフト)に適応することを目的とした、時間的ドリフト認識型の動的ニューラルネットワーク(DRAIN)を提案。
先行研究では、静的なネットワーク構造によるアプローチが一般的であった。
この研究は動的なネットワーク構造を通じてドリフトに適応する方法を採用。これにより、時間に依存するデータの変化に柔軟に対応できる。
つまり、データの変化を検出し、ネットワークがその変化に応じて動的に構造を変える。
論文では、モデルのドリフト適応能力の限界と、異なる種類のドリフトに対する感度についても議論。