群衆における歩行者の頭部追跡(Sundararaman et al. 2021) の日本語解説
はじめに
この記事では、2021年にSundararamanらによって発表された「群衆における歩行者の頭部追跡("Tracking pedestrian heads in dense crowd")」を取り上げ、その内容を解説し、その意義について議論する。なお、この記事は元来、大学院講義の課題のために書くものである。
図1: 画像中の歩行者の検出及び頭部の検出の図示の例。Sundararaman et al. (2021)より引用。
論文の概要
この記事で取り上げる論文の概要は以下のとおりである。
- 論文タイトル: "群衆における歩行者の頭部トラッキング"(原題:"Tracking pedestrian heads in dense crowd")
- 著者: Ramana Sundararaman, Cedric De Almeida Braga, Eric Marchand, Julien Pettre
- 発表年: 2021
- 発表会議: IEEE/CVF conference on computer vision and pattern recognition (CVPR) 2021, Session 3
- 論文リンク: https://arxiv.org/abs/2103.13516
論文では、密集した群衆の中で歩行者の頭部を追跡する手法とその手法の評価指標が提案され、さらに開発のためのデータセットが紹介され、それを用いた提案手法の検証が行われている。
内容の解説
まず、論文でカバーされている内容を順を追って説明する。本論文は次の章立てをとっている。
- 序論 (Introduction)
- 関連研究 (Related Work)
- CroHDデータセット (CroHD Dataset)
- 評価指標 (Evaluation Metrics)
- 手法: 頭部検出と追跡 (Method: Head Detection and Tracking)
- 検証 (Experiments)
- 結論 (Conclusion)
以下では一章から順に、その内容を説明していく。
1. 序論 (Introduction)
この章で論文著者は、(他の多くの学術論文と同様に、)本研究の必要性を、その社会背景や学術分野の動向に触れながら説く。
具体的には、まず、物体(特に人物の)追跡(トラッキング)が画像認識・理解の上で重要なタスクであるとし、この技術の近年の発展を支えてきたベンチマークデータ、MOTChallengeベンチマーク(MOT:Multi Object Tracking)を紹介する。ここで、追跡アルゴリズムの多くが画像検出技術の上に成り立っており、そのため、画像中の群衆の密度が大きくなる時、人物がオクリュージョンによって検出されない場合には、追跡の精度も低下することが述べられる。
次に、以上の課題意識のもと、論文著者は自身の開発したデータセット、画像検出手法、物体追跡手法、物体追跡の評価指標を簡単に紹介する。具体的には、新たなデータセットであるCroHD(Crowd of Heads Dataset)を紹介し、さらに、頭部の検出器、HeadHunterと追跡器HeadHunter-Tと続けて紹介している。
最後に、既往研究で用いられている物体追跡の評価指標について、その欠点を指摘し、新たな評価指標を提案して、その概要を述べる。
2. 関連研究 (Related Work)
ここでは、関連する先行研究について、頭部検出のベンチマークデータセット、頭部の検出手法、追跡用のベンチマークデータセットと評価指標、そして頭部追跡のアルゴリズムの4つの節に分けて、それぞれ現状をまとめている。
3. CroHDデータセット (CroHD Dataset)
この章では、論文著者の使用した頭部検出・追跡の評価のためのデータセット、CroHDの紹介を行う。以下ではその要約に加えて、個人的に調べた情報も述べる。
このCroHDは、9つのことなる場所で撮影された群衆のフルHD画質のRGB映像からなるデータセットである。合計で11,463フレームを含んでおり、各フレームについて、人物の頭部を含む長方形の座標とその人物固有のidとその属性(歩行者、車内の人物など)が与えられている。このようにアノテーションされた頭部は全部で2,276,838にのぼる。また、対象地の屋内・屋外や、群衆の密度などの点でバラエティーに富んだデータセットとなっている。以下にその図示した例を示す(なお、これらの画像はMOTChallenge.netより入手し加工したものである)。
4. 評価指標 (Evaluation Metrics)
この章では、物体追跡手法の評価に用いる新たな指標、IDEuclが提案されている。以下はその要約である。
既往研究で用いられている物体追跡の評価指標は複数あるが、主なものはどれも画像間の追跡の有無(二値)を評価対象としており、追跡対象の移動距離を用いた定量的評価はなされていない。他方で、追跡器がどれだけ長い間、人物を追跡できるのかということは、性能を測る上で重要な視点であると言える。そこでこの章では、このような継続的追跡の定量的評価を目的とする新たな性能指標IDEuclを導入する。この指標IDEuclは、
$$ \text{IDEucl} = \frac{正しく推定された追跡長の和}{全追跡長の和}$$
と計算される。ただし、ここで追跡長とは、ある追跡対象に関する2つの連続するフレーム間での画像座標上での移動距離(ゆえに単位は、pixelなど)のことを言い、追跡長の和はこれらを全てのフレーム間かつすべての追跡対象について足し合わせたものをいう。
5. 手法: 頭部検出と追跡 (Method: Head Detection and Tracking)
論文著者はこの章で、頭部検出と追跡を行う手法を構築する。以下はその要約である。
画像中の物体検出器は既に多く提案されていて、その性能は近年大きく進歩しない状態、すなわち飽和状態に至った。そこでここでは、本研究の目的である人間の頭部検出・追跡を行うため、既往研究のモデルをもとにしつつ、検出・追跡対象を人間の頭部に絞った新たな検出器、HeadHunterと追跡器HeadHunter-Tを構築する。
まず、検出器HeadHunterは、Feature Pyramid Network(FPN)、Context Sensitive Prediction Mofule (CPM)、Faster-RCNNよりRegion Proposal Network(RPN)のような、既存の検出器で用いられ、その有効性が証明されてきたネットワーク構造を用いることで、頭部のみを高精度に検出することを目指した。
また、追跡器HeadHunter-Tは、Particle Fliter(以後、PF)を用いることで追跡対象ごとに有限個(ここではN=100)の移動先(particle)を予測している。その移動先ごとに特徴点抽出を行い、各移動に確率を与え、その重み付き平均を取ることで追跡をしている。また、Resamplingアルゴリズムによって、適切なParticleが必ず抽出されることが保証されている。さらに、オクリュージョンによって一度追跡が失敗した物体については、Cost Marchingアルゴリズムによって、再度画像内で検出された場合には再び同じidを付与し、追跡を継続することが可能となっている。
なお、当該手法(HeadHunterとHeadHunter-T)のコードは、Github上[2.,3.]で公開されている。
図4: HeadHunterが用いる頭部検出ネットワーク。Sundararaman et al. (2021)より引用。
6. 検証 (Experiments)
この章で、論文著者は以上の手法を適用し、IDEuclを含む複数の指標を用いて、他の手法と比較検討を行なっている。以下はその要約である。
まず、SCUT-HeadとCroHDの2つのデータセットを用いて、Faster-RCNNを含む4つの検出器とHeadHunterの頭部の検出性能について検証した。すると、いずれのデータセットを用いた場合についても、HeadHunterの性能が全ての指標で上回っていることが確認された。
次に、CroHDを用いて、SORT、V-IOU、Tracktorの三つの追跡器と比較して、HeadHunter-Tの性能検証を行った。すると、IDEuclを含むほとんどの指標において、HeadHunter-Tが他の追跡器よりも優れていることが確認された。
最後に、HeadHunterにHeadHunter-Tとは異なる他のコンフィギュレーションを与えた場合についてもそのパフォーマンスを検証した。PFを用いなかった場合、PFを10個のみ設定した場合、代わりにカルマンフィルターを用いた場合など、複数の派生追跡器を構築し、HeadHunter-Tと比較した結果、やはりHeadHunter-Tのパフォーマンスが最も良いことが確かめられた。
7. 結論 (Conclusion)
ここで論文著者は、以上の内容、すなわち
- 新たなデータセット、CroHDの紹介
- 新たな追跡の評価指標、IDEuclの紹介
- 頭部検出器HeadHunterと追跡器HeadHunter-Tの手法の構築と検証をし、その有効性を示したこと
改めて述べ、これらをもとに計算コストが低く高速な手法が今後提案され、またCroHDが今後の研究で役立てられることへの期待を著した。
本論文の重要性
以上を踏まえて、ここではこの論文の重要性・革新的アプローチを議論し、このカンファレンスに採択されるに当たって、評価されたであろう点を整理する。
CroHDの紹介
まず、この論文の意義として、CroHDをデータセットとして用いた最初の論文であることが挙げられる。これ以前のMOTChallengeは、主に物体の検出、セグメンテーション、指定物体の追跡や、群衆を対象にした場合には歩行者検出やその追跡をタスクとしていたが、この新たなデータセットCroHDは頭部に限る追跡をその主たるタスクとするものであった。この論文の研究は、このデータセットを用いた検出器と追跡器の構築の大事な例を示す役割があり、実際、MOTChallengeのWebサイトにそれが引用されている[1.]。
図5: CroHD以前のMOTChallengeベンチマークデータの例 (MOT20Det[1.]より)
IDEuclの導入
また、追跡の評価指標として、フレーム間の対応関係の推定の正否だけでなく、物体の画像座標における移動距離(追跡長)も考慮に入れた追跡器の性能評価指標として、あらたにIDEuclを紹介した点も、この論文の学術的意義であると言える。実際に、MOTChallengeのWebサイトにおけるCroHDベンチマークを使った追跡の推定手法の評価指標として、IDEuclが用いられており、以後の追跡の推定手法の方針を定めるものであった。
HeadHunter, HeadHunter-Tの構築
言わずもがな、本研究で提案された頭部検出器と追跡器、HeadHunterとHeadHunter-Tは、以後の頭部検出・追跡タスクの研究が行われる上で、レファレンスポイントとなるような手法であったことは、本研究の学術的であったと言える。CroHDとIDEuclを用いた初の推定手法であるHeadHunterとHeadHunter-Tは、既存の検出器と追跡器に関する知見を組み合わせたシステムとなっており、既往研究を踏まえて構築された頭部検出器・追跡器であったと言える。これは、IDEuclが妥当な指標であることを確認するとともに、CroHDを対象とした以後の検出器と追跡器がこえるべき性能を示したと言える。HeadHunterとHeadHunter-Tは、以後の検出・追跡技術の開発にインスピレーションを与えるものであり、実際、MOTChallengeのWebサイト[1.]にはこれをこえる性能を達成した手法が11あると紹介されている。
結論
以上のこの記事では、2021年にSundararamanらによって発表された「群衆における歩行者の頭部追跡("Tracking pedestrian heads in dense crowd")」について、その内容を解説し、その学術意義について議論した。
まず、当該論文は頭部検出・追跡という新たなタスクに対して、研究開発用のデータセットCroHDを紹介し、またこのタスクの評価手法としてIDEuclを導入する意義があった。さらに、論文著者はこのタスクを執り行うために、既往研究の知見を結集させたような頭部検出器、追跡器であるHeadHunterとHeadHunter-Tを構築し、その性能検証を行った。以上をもって、2021年の段階での技術の到達点として具体的な数値を与え、以後のこのタスクに取り組む研究者にこえるべき基準点を具体的に示し、実際、複数の手法が追って提案された。
私はこの分野の研究者では必ずしもないが、ベンチマークデータや評価指標が研究コミュニティの方向性を定義するほどの影響力を持つということが感じられて、カンファレンスの意義を感じることができた。また、最高精度を出す手法が、次々と更新されていくことを確認して、この研究分野の発展の速さも感じることができた。
参考文献 (対象論文を除く)
- [1.] Multiple Object Tracking Benchmark, "Head Tracking 21", https://motchallenge.net/data/Head_Tracking_21/
- [2.] Sentient07, "HeadHunter", https://github.com/Sentient07/HeadHunter
- [3.] Sentient07, "HeadHunter--T", https://github.com/Sentient07/HeadHunter--T