多視点による歩行者検出のためのスタック・ホモグラフィ変換の利用(L.Song et al. 2021) の日本語解説
はじめに
この記事では、2021年にL.Songらによって発表された「多視点による歩行者検出のためのスタック・ホモグラフィ変換の利用("Stacked homography transformations for multi-view pedestrian detection.")」を取り上げ、その内容を解説し、その意義について議論する。なお、この記事は元来、大学院講義の課題のために書くものである。
図1: 多視点画像を入力とした歩行者検出の概要。L.Song et al. (2021)より引用。
論文の概要
この記事で取り上げる論文の概要は以下のとおりである。
- 論文タイトル: "多視点による歩行者検出のためのスタック・ホモグラフィ変換の利用"(原題:"Stacked homography transformations for multi-view pedestrian detection.")
- 著者: Song, Liangchen and Wu, Jialian and Yang, Ming and Zhang, Qian and Li, Yuan and Yuan, Junsong
- 発表年: 2021
- 発表会議: IEEE/CVF International Conference on Computer Vision (ICCV). 2021, Session 5
- 論文リンク: https://ieeexplore.ieee.org/document/9710265
論文では、スタック・ホモグラフィ変換 (Stacked Homography Transformation, SHOT) という、画像座標状の点をオルソ画像上の点に変換する操作を行うことにより、鳥視点(bird's eye view, BEV) の歩行者の分布を得るフレームワークを紹介している(図1)。
内容の解説
まず、論文でカバーされている内容を順を追って説明する。本論文は次の章立てをとっている。
- 序論 (Introduction)
- 関連研究 (Related Work)
- 前置きと註記 (Preliminaries and notations)
- 提案手法 (Proposed method)
- SHOTの性質 (Properties of SHOT)
- 検証 (Experiments)
- 結論 (Conclusion)
以下では一章から順に、その内容を説明していく。
1. 序論 (Introduction)
この章で論文著者は、(他の多くの学術論文と同様に、)本研究の必要性を、その社会背景や学術分野の動向に触れながら説く。以下はその要約である。
まず、多視点検出が単視点検出に優る点を整理し、この論文の研究内容を、多視点画像から歩行者を検出し、鳥視点(bird's eye view, BEV) の歩行者の分布地図を出力することとする。単視点の画像を入力とした場合、データ量が少ない一方で、オクリュージョン(物体が他の物体の陰に隠れて見えなくなること)により、検出・追跡の精度が落ちるという問題がある。他方で、多視点の複数の画像を入力とすると、この問題がなくなる一方で、複数の画像を統合して処理する必要が生まれる。そこで、本論文では、多視点の複数の画像を入力とし、歩行者を検出して、鳥視点(bird's eye view, BEV) の歩行者の分布地図(2D)を出力とするタスク(図1)を研究内容とする。
しかし、このタスクには2つの課題がある。1つは、視点の異なる画像間で、特徴点をマッチングさせることが難しいということで、各視点で検出された歩行者の対応関係が、歩行者画像の特徴点だけからは自明には与えられないからということである。もう1つは、各視点の画像は被写領域の不完全な情報しか与えないということであり、そのため例えば、オクリュージョンにより1つの視点からしか捉えることのできなかった被写領域は、適切に認識されて、出力に反映せねばならない。
この論文では、1つ目の課題に対して、特徴点の高さ別に異なるホモグラフィを作成し、高さの異なる水平面に投影するというストック・ホモグラフィのアイデアを導入する。2つ目の課題に対しては、特徴点を投影するホモグラフィの選択をソフト選択法をによって行うことで、出力を微分可能とする。
画像中の各ピクセルが、複数のホモグラフィを用いて投影されることから、この手法をStacked Homography Transformation(SHOT)と呼ぶ。これは、3次元点群の2次元平面への射影を複数のホモグラフィ投影によって近似していると考えることができる。本文において、SHOTの性質を、 (1.) ホモグラフィの取得に必要な条件 と (2.) 3次元投影としてのホモグラフィの性能 の2つの観点で議論する。
2. 関連研究 (Related Work)
ここでは、関連する先行研究について、(1.)多視点画像による物体検出 と (2.)複数の水平面への投影 と (3.)幾何学条件を考慮した深層ネットワーク 3つの観点から整理している。
(1.) については、複数視点から得られる特徴量のマッチングと情報の統合に関する様々なフレームワークが紹介された。(2.) については、複数の水平面を用いた3Dモデルの投影に関する研究が整理された。(3.)については、ピンホールカメラモデルを用いた3次元復元に関する研究が紹介された。
3. 前置きと註記 (Preliminaries and notations)
この章では、論文著者が手法を議論する上で必要となる前提知識や記法について、とくにホモグラフィについて説明されている。
ホモグラフィとは、ある同一平面上にある任意の点が、2つの異なる平面に投影される時、それぞれの平面上での座標がみたすべき条件を表す行列のことである。まず、絶対座標$(X,Y,Z,1)^\top$にある点がカメラ$i$の投影面状の画像座標$(u,v,1)^\top$に投影される時、次の関係が成り立つ。
$$s \begin{pmatrix} u^i \ v^i \ 1 \end{pmatrix} = \mathbf{K}^i \begin{pmatrix} \mathbf{R}^i & \mathbf{t}^i \ \end{pmatrix} \begin{pmatrix} X \ Y \ Z \ 1 \end{pmatrix}$$
ただし、$s$は任意の実数、$\mathbf{K}$ はカメラの内部評定要素を示す投影行列、$\mathbf{R}$と $\mathbf{t}$はカメラの姿勢を示す行列とベクトルである(それぞれ、回転と並進を示す)。
ここで、BEVを無限遠のカメラの投影面と捉えることで、同様に定式化でき、この時の投影行列を、$\mathbf{K}_g$とすれば、
$$s \begin{pmatrix} u_g \ v_g \ 1 \end{pmatrix} = \mathbf{K}_g \begin{pmatrix} \mathbf{E}^i_g \end{pmatrix}^{-1} \begin{pmatrix} \mathbf{K}^i \end{pmatrix}^{-1}\begin{pmatrix} u^i \ v^i \ 1 \end{pmatrix} = \mathbf{H}^i_g \begin{pmatrix} u^i \ v^i \ 1 \end{pmatrix} $$
というような、カメラ$i$の投影平面から、水平面への投影を表す行列$\mathbf{H}^i_g $が得られる。これがこの論文の核となるホモグラフィであり、同一平面状にある点$(s_1,s_2,s_3,s_4)^\top \begin{pmatrix} X \ Y \ Z \ 1 \end{pmatrix}=0$であれば、同じホモグラフィが得られることが知られている。ホモグラフィを用いて、点の座標を投影平面間で変換することをホモグラフィ変換と呼ぶ。
4. 提案手法 (Proposed method)
この章では、この論文のメインのアイデアであるStacked Homography Transformation(SHOT)について、手法が構築される。以下はその要約である。
まず、ホモグラフィのスタックについて説明する。これは、複数の互いに水平な投影平面と全てのカメラの投影平面とのホモグラフィの集合のことである。すなわち、例えばXY平面とそれについて平行な$D$の平面$(X,Y,Z=k \Delta z ,1)^\top$, $(k=1,2,...,D)$ をとり、カメラが$N$あった場合、ホモグラフィのスタックは$N(D+1)$のホモグラフィ${(\mathbf{H}^i_0, ..., \mathbf{H}^i_D ) }^{i=N}_{i=1}$からなり、それぞれ
$$ \mathbf{H}^i_k = \mathbf{K}_g \begin{pmatrix} \mathbf{E}^i_k \end{pmatrix}^{-1} \begin{pmatrix} \mathbf{K}^i \end{pmatrix}^{-1} $$
より得られる。
次に、ソフト選択法について、説明する。各カメラについて複数のホモグラフィが得られるようになったが、そのどれを使えば良いのかという問題について、ソフト選択法を導入して解決を図る。具体的には、特徴点を入力とし、Softmax関数を含むネットワークを用いることで、各ホモグラフィについて選択確率を求め、その投影を確率で重み付け平均を取り投影とする。
最後に、この論文の手法のフレームワークを説明する。まず、ResNet-18をベースとしたフレームワークを用いて特徴点抽出を行なう。次に、提案手法であるSHOTを用いて、BEV(Bird's Eye View)を出力する。以上のデータフローは図2に示す。
図2: 本手法のフレームワーク(L.Song et al. 2021より)
5. SHOTの性質 (Properties of SHOT)
論文著者はこの章で、4章で構築したSHOTの持つ理論的性質を整理する。以下はその要約である。
まず、SHOTを用いるための条件について整理する。一般的なホモグラフィの取得には、同一平面状の点が4つ必要であることが理論的に示されている。ここではさらにこの議論をホモグラフィ・スタックの場合に拡大している。その結果、すでに一つのホモグラフィが得られている場合(この平面を主平面と呼ぶ)には、主平面に平行な平面上にある2点が特定できて、その主平面への投影点の座標も既知であれば、その2点のあ平行面もホモグラフィがえられることが示された。直感的には、地面へのホモグラフィが与えられている時に、同じ身長を持つ2者の頭頂部と足先が特定できれば、頭頂部を通る地面に平行な平面へのホモグラフィがえられるということである。
次に、3次元投影としてのSHOTの性質を整理する。
このフレームワークは有限個の水平面の選択と、主平面のグリッド化という2つの離散化を含んでいる。これらは異なる役割を持つが、適切に離散化することで、同一物体(歩行者)がBEVの同一グリッドに投影されるように設定できる。以上の性質は歩行者検出・プロッティングに向いていると言える。
6. 検証 (Experiments)
この章で、論文著者は以上の手法SHOTを適用し、既存研究と比較しその性能を検証している。以下はその要約である。
まず、手法の検証には、WILDTRACK(画像)とMultiviewX(UnityによるCG画像)がベンチマークデータセットとして使われた。また、評価指標として、既往研究でも使われたMODA(Multiple Object Detection Accuracy)やMODP(Multiple Object Detection Precision)が用いられた。さらに、比較対象として、RCNN &clasteringやPOM-CNNを用いている。
まず、検出器の検証の結果、いずれのデータセットと評価指標を用いた場合も、ほとんどの場合で本手法が優っていることが確認された。
また、追跡器についても、MVDetと比較することにより、本提案手法の有効性が示された。また、同手法の一部を変えることで、各種ハイパーパラメータを検討している。
以下の図は本手法の出力の例で、既往研究の手法の出力が不鮮明なのに対し、提案手法は検出対象をよりはっきりと出力していることが確認できる。
図3: 本手法の出力例(L.Song et al. 2021より)
7. 結論 (Conclusion)
ここで論文著者は、この論文の成果として、ホモグラフィ変換とソフト選択を用いた手法、Stacked Homography Transformation(SHOT)の構築とその検証をしたことを述べ、この論文を結んでいる。
本論文の重要性
以上を踏まえて、ここではこの論文の重要性・革新的アプローチを議論し、このカンファレンスに採択されるに当たって、評価されたであろう点を整理する。
新たな手法、SHOTの構築と検証
この論文の最大の成果は、特徴点の3次元復元を明示的には行わずに、BEV画像を出力する手法、SHOTを提案したことである。この手法の特徴は、多層のホモグラフィを用いることで、本来3次元復元を行なってからBEV画像を出力していたところを、特徴点の画像座標から直接に出力可能としたことである。異なる視点の画像を出力する従来手法は、まず多視点画像から被写体の3次元復元を行い、次に画像平面上に投影するものであった。本研究は、出力をBEV画像に限定した場合には、スタックホモグラフィ変換を用いることで、3次元復元を行うことなく、他の視点の画像が出力できるフレームワークを提案し、その精度を検証したことに学術的意義があると思う。
結論
以上のこの記事では、2021年にL.Songらによって発表された「多視点による歩行者検出のためのスタック・ホモグラフィ変換の利用("Stacked homography transformations for multi-view pedestrian detection.")」について、その内容を解説し、その学術的意義について議論した。
まず、当該論文は、3次元復元を介さずにBEV画像を出力する新たなフレームワークを提案した点に学術的意義があった。これは、に平面間の画像変換をホモグラフィ変換で行うものであるから少ない計算コストで高速に行えるものであるが、ホモグラフィ変換はある平面上の点にしか適用できないものであった。本手法は、有限個のホモグラフィの集合、すなわちホモグラフィ・スタックを用いることでこの課題を解決し、有限個のホモグラフィの選択をソフト選択法をもちいて行い、モデルの学習を可能とした。このようなアイデアによって、3次元復元を行わないBEV画像生成が実現されたことに意義があり、このフレームワークはBEVに限らない任意の視点からの画像の生成に応用することができる。
私はこの分野の研究者では必ずしもないが、たとえば、本来であれば精度が落ちるという懸念のある空間(ホモグラフィ)の離散化を行い、プロセスを高速化しその効果を検証していた点が興味深かった。一見グレードダウンに見えることも、異なる目的のもとには有用であり、しっかりと精度検証を行うことで学術的意義がある研究になると知ることができた。
参考文献
- Song, Liangchen, et al. "Stacked homography transformations for multi-view pedestrian detection." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021. https://ieeexplore.ieee.org/document/9710265