1. 概要
2枚の連続した画像から、カメラがどのように傾いたかを予測できるモデルを提案している。単眼カメラを用いたカメラ回転の推定方法はこれまでにもよく研究されてきたが、高速に高精度な予測ができる手法は実現が難しかった。提案手法では、ハフ変換(Hough Transform)をSO(3)(3次元の特殊直行群:Special Orthogonal Group)で一般化させることで、カメラ回転の推定を実現している。また、BUsy Street Scenes Dataset (BUSS)という17の動画シーケンスから成る新たなデータセットを公開しており、高精度なベンチマークが可能となっている。
*SO(3): 特殊直行群は行列が直行行列かつ行列式が1であるような行列の集合を指し、SO(3)では3次元空間における回転操作を表現するための群を指す。
2. 新規性
SO(3)上でのHough変換の効率的かつ頑健な一般化を導入し、光学フローと最も互換性のあるカメラ回転を効率的に発見できるアルゴリズムを提案している。Hough変換は直線や円などの幾何学的な形状を検出するための方法で、SO(3)上でのHough変換は3次元空間における回転の検出に用いられている。
3. 実現方法
動き場を示すオプティカルフローは2次元ベクトルで表現されるが、3次元の回転は3次元表現となるため、光学的なオプティカルフローによって推定された回転が複数の可能性を持っており、1次元の空間上で表現される。
これを一般化させると、遠くの物体は見かけ上の動きが小さく表現されるため主にカメラの回転によってオプティカルフローが生成されると考えることができる。一方、動いている近くの物体のオプティカルフローは、カメラの回転による影響よりも動き情報が大きいことが多いため一貫した回転を示さないことが多い。SO(3)上のハフ変換を求めることで、遠方物体の回転方向を予測することができ、これがカメラ自身の回転とみなせるため、高速かつ高精度にカメラ回転を予測することができる。
4. 結果
BUsy Street Scenes Dataset (BUSS)を公開しており、約10秒間の30fpsで撮影されたフルHD解像度(1920x1080)で構成された17の動画から成る。いずれの動画も手持ちのスマートフォンで撮影されており、混雑した市街地で撮影され、ジャイロスコープによる実際の回転情報が同期して公開されている。
提案手法は、従来手法よりも高速かつ少ないエラーでカメラ回転を予測できている。同じ速度では、従来手法より50%も精度が向上している。
last updates: Nov 24 2023