More than 1 year has passed since last update.

論文紹介【ICLR2023 notable top5%】その4 (随時更新)

Posted at 2024-02-11

はじめに

ICLR(International Conference on Learning Representations)2023の
OpenReviewで読むことができる論文のnotable top5%を紹介していきます。

※間違っている所もあると思いますので、留意して読んで頂けると幸いです

View Synthesis with Sculpted Neural Points
AutoGT: Automated Graph Transformer Architecture Search
Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series Forecasting
Betty: An Automatic Differentiation Library for Multilevel Optimization
Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization
Win: Weight-Decay-Integrated Nesterov Acceleration for Adaptive Gradient Algorithms
Towards Stable Test-time Adaptation in Dynamic Wild World
MocoSFL: enabling cross-client collaborative self-supervised learning
DaxBench: Benchmarking Deformable Object Manipulation with Differentiable Physics
3D generation on ImageNet
Rethinking the Expressive Power of GNNs via Graph Biconnectivity
Sparse Mixture-of-Experts are Domain Generalizable Learners
Token Merging: Your ViT But Faster
Learnable Behavior Control: Breaking Atari Human World Records via Sample-Efficient Behavior Selection
Image as Set of Points

View Synthesis with Sculpted Neural Points

研究背景:

view synthesis とは、複数画像から3D視点を生成するタスクであり、拡張現実（AR）や仮想現実（VR）などに応用される。
既存の方法（例えばNeRF）はシーンの幾何学情報をニューラルネットワーク（MLP）でパラメータ化しているが、計算効率に欠点がある。

提案手法:

点群を用いたSculpted Neural Points(SNP)を提案。
一連の複数画像(シーン)を3D空間の点群として表現し、それをレンダリングするが、レンダリング過程を微分可能な数学的操作として定義する。これにより損失勾配を計算可能とする。
点群は、3D情報を抽出する技術(MVS)によって再構築され、その後不要な点の削除や重要な点の追加を行う(Point Sculpture)と呼ばれる技術を用いて最適化される。これにより正確で詳細な3D表現を実現し、精度の向上を図る。
また、球面調和関数を使用することで、異なる方向からの照明条件を効率的に近似し、物体表面の複雑な環境を表現することができる。

先行研究と比べてどこがすごいか:

NeRFよりも視覚的品質が優れており、レンダリング速度が100倍速い。

技術や手法の新規性、重要な部分:

SNP技術は、再構築されたポイントクラウドのエラーや穴に対する堅牢性を大幅に向上させる。さらに球面調和を用いた、視点に依存した点群特徴量と、点群ベースの新しいレンダリングパイプラインを導入している。

どうやって有効だと検証したか:

様々なベンチマーク（DTU, LLFF, NeRF-Synthetic, Tanks&Templesなど）での評価を行い、すべてのベースラインに対して同等またはより良い性能を示している。

AutoGT: Automated Graph Transformer Architecture Search

研究背景

グラフに対するTransformerの設計は、従来人の労働と専門知識によって行われていた。この論文では、Graph Transformerの自動設計に焦点を当て、最適なアーキテクチャとEncoding手法の自動発見を目指す。

提案手法

Transfomer構造とGraph Encodingを統合した、Automated Graph Transformer (AutoGT)を提案。
Graph EncodingにAttention機構を用いて、モデルの性能推定を行う。
これにより、Graph Transformerの設計を自動化。

先行研究との比較

先行研究では、非グラフデータ（テキストや画像など）のTransfomerの自動設計に焦点が当てられていたが、この研究では、グラフの特性を考慮することでGraph Transformerの自動設計を行った。

技術や手法の新規性

Figure1の下半分のように、Attention maskやエッジ埋め込みなどのグラフ固有のモジュールを追加するか否かを決める(「Encoding戦略を決める」という)。
Figure2はそれを決める部分の詳細を示す。
NAS(Neural Architecture Searc)のように、Super netに、現在のネットワーク構造の情報(モジュール同士の接続情報など)と対象のグラフデータなどを入力とし、最適なネットワーク構造の情報を出力(推論)する。
このSuper netを学習することで、最適な構造を決めることができる。

検証方法

AutoGTを既存の手作業によるベースラインと比較し、COX2_MD、BZR_MD、PTC_FM、DHFR_MD、PROTEINS、DBLPなどのデータセットでの平均精度と標準偏差において、既存のモデルよりも優れた性能を示す。

Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series Forecasting

研究背景

MTS(多変量時系列予測)は、気候、エネルギー、金融など多くの分野で重要であるが、
長期的な依存関係を捉えるTransformerベースの既存モデルは、次元の異なる特徴量間の依存関係(クロス次元依存性)を無視していることが多い。

提案手法

Crossformerは、DSW（Dimension-Segment-Wise）埋め込みとTSA（Two-Stage Attention）層を使用して、クロス次元依存性と異なる時刻同士の関係性(クロスタイム依存性)を効果的に捉える。
DSW埋め込みでは、各次元の時系列データをsegmentという2次元特徴ベクトルとして埋め込む。
HED（Hierarchical Encoder-Decoder）は、異なるスケールで情報を使用し、最終予測に組み合わせる。

先行研究との比較

従来のトモデルは、時系列データのクロスタイム依存性のみを重視し、クロス次元依存性を明示的に捉えていないという問題がある。
これらのモデルは、特定の時刻における全次元の特徴量を単一のベクトルに埋め込むことで、クロスタイム依存性のみに焦点を当てている。
Crossformerはこの問題に取り組み、クロス次元依存性とクロスタイム依存性の両方を捉えることで、MTS予測の精度を向上させている。

技術や手法の新規性

多変量時系列（MTS）予測において、クロス次元依存性を明示的に利用するTransformerモデルとして初である。

有効性の検証

実験は、6つの実世界のデータセット（気温変化、気象データなど）を使用して行われ、Crossformerは既存の最先端モデルと比較して優れた性能を示した。

Betty: An Automatic Differentiation Library for Multilevel Optimization

Offline RL with No OOD Actions: In-Sample Learning via Implicit Value Regularization

Win: Weight-Decay-Integrated Nesterov Acceleration for Adaptive Gradient Algorithms

研究背景

大規模なデータセットでのトレーニングは、計算上の課題を伴う。
また、既存のアルゴリズムである確率的勾配降下法（SGD）やAdamは、疎なデータセットでの学習などの特殊な状況に弱く、収束速度や精度が下がってしまう。

提案手法

本論文では、AdamWやAdamのような適応型勾配アルゴリズムを強化するための新しい技術であるWeight-decay-Integrated Nesterov acceleration（Win）を提案。
この方法は、ネステロフ加速と重み減衰を効果的に組み合わせている。また、損失関数の一次および二次テイラー近似を使用し、更新には、保守的ステップ(Conservative Step)と無謀なステップ（Reckless Step)を組み合わせて収束を加速させる。
この方法は、LAMBやSGDなどの他の最適化手法にも拡張できる。

先行研究との比較

Winは、重み減衰とネステロフ加速プロセスを直接統合する点に関して、先行研究とは異なる。
以前の方法では、ネステロフ加速の性能をうまく活用できなかったり、AdamWのような適応型アルゴリズムが汎化性能の問題に直面していた。
Winによる、重み減衰との統合により、より良い収束能力と汎化能力が得られる。

技術や手法の新規性、重要な部分

新規性は、重み減衰をネステロフ加速と効果的に組み合わせる点。
この技術は、近似点法（PPM）に触発された動的な正則化と、Tailor近似化された損失関数を使用し、AdamW、Adam、LAMB、SGDなど様々なオプティマイザーに適用可能です。この統合により、顕著な計算オーバーヘッド増加なしに、収束速度と性能が向上している。

有効性の検証

Winの有効性は、CNNとTransformerアーキテクチャを使用した視覚分類と言語モデリングタスクでの広範な実験を通じて検証された。その結果、Win加速アルゴリズムは、収束速度と全体的なパフォーマンスの両方で非加速バージョンを大幅に上回ることが示された。