1. 概要

教師有り学習でニューラルネットワークを用いる場合、データに与えられたラベルを教師としてデータ間に明示的な特徴や表現を学習するが、モデル自身がデータに関連するパラメータを学習しそれを利用してデータ生成・変換・予測する技術のことを、Implicit Neural Representations(INRs)という。データ内の複雑なパターンや構造が自動で抽出でき、データにラベルが必要ないケースで用いられ、画像生成・3D形状表現、動画生成などに応用されている。
この研究では、Multiplicative Fourier Level of Detail(MFLOD)という、多重解像度を利用して得られる特徴をSin波の重ね合わせとして表現し学習するINRs技術を提案している。

2. 新規性

シーン全体の大局特徴と多重解像度を用いた局所的な詳細特徴のハイブリッドな特徴表現を学習できるように設計されており、フーリエ解析を利用して高精度な予測を可能としながら高速な学習・推論を実現している。

3. 実現方法

多重解像度で特徴を取得し、各レベルの特徴をSin波で表現する。この処理を前のレイヤーの特徴表現に対しても同様に行い、線形変換と要素ごとの乗算で再帰的に掛け合わせていくことでマルチスケールを考慮した特徴量が得られる。

4. 結果

線形の演算子を特定の関数にかけると、その関数は自身の定数倍になる性質がありこれを固有関数(eigenfunctions)と呼ぶ。固有関数を可視化してみると提案手法(MFLOD)では従来手法(NGLOD)より簡単に特徴表現を学習でき、また過学習(overfitting)の傾向が少ないことが分かった。

学習時に入力の画像サイズを半分にリサイズしておき、推論時に元の解像度で画像を予測する一種の超解像のタスクで評価したところ、提案手法の方が高精度に復元できていることが分かった。

提案手法では、NeRFなどと比べて少ない学習・推論時間で高精度にシーンを復元できている。

Paper URL: https://openaccess.thecvf.com/content/CVPR2023/papers/Dou_Multiplicative_Fourier_Level_of_Detail_CVPR_2023_paper.pdf

last updates: July 10 2023