More than 5 years have passed since last update.

Towards Streaming Perception の解説

Last updated at 2020-12-10Posted at 2020-11-27

こんにちは、高校生の kamikawaです。
機械学習に興味があって勉強中です。特にCV分野に興味があります。

今回はECCV2020でBest paperに選ばれた「Towards Streaming Perception」という論文について解説します。

自動運転やVR、ARなど、リアルタイムでのperceptionに興味がある方、ぜひご覧ください。
間違い等あればご指摘お願いします。

プロジェクトページ
 Git Hub
YouTube

概要

モチベーション：リアルタイムで認識から再行動までを行うための高速で正確なperceptionの実現

オフラインの評価と実世界への応用との間に矛盾を指摘
レイテンシと精度を一貫して評価できる指標を提案
ストリーミング環境下の様々なタスクへ応用できるメタベンチマークを提案
ストリーミング環境下のタスクで、性能を向上させるための手法を提案

提案されたベンチマーク

streaming accuracy
レイテンシと精度を一度に評価できる
- 評価指標を確立
pseudo ground truth
高フレームレートかつ高アノテーションレートのデータセットを人の手を使わずに作れる
- データセット不足を解消
infinite GPUsシミュレーション
モデルの性能を最大化するために必要なGPU数が分かる
- 実用化に向けた計算資源に関する知見が得られる

提案手法

ストリーミング環境でperceptionの性能を向上させるための汎用的な手法を提案している

動的スケジューリング
処理すべきフレームを決定する
- レイテンシの累積を防ぐ
状態予測
物体の将来の位置を予測する
- レイテンシを補う
トラッキング
検出器より高速に動作する
- レイテンシを減らす

背景

ストリーミング環境下でのperception（YOLOやSSDなど）は難しい

レイテンシの問題
処理を行っている間に物体が移動してしまう
精度とレイテンシを間にトレードオフがある
良い評価指標がない
レイテンシと精度のトレードオフの良さを測りたい
データセットが少ない　
高フレームレートかつ高アノテーションレートのデータセットが欲しい

従来のCV分野(リアルタイム)の研究

自動運転やVR、ARなどストリーミング環境で高度なperceptionの需要は高まっている

多くの研究：オフライン環境で精度とレイテンシを評価し、トレードオフを指摘
高速な検出器　・・・　精度が低い
高精度な検出器・・・　遅い

オフライン環境で測定された精度とruntime

この研究

オフライン環境での評価と実世界での応用との間に矛盾

オフライン環境　(従来の研究)
一枚のフレームの処理が終わった段階で次のフレームが与えられる
- レイテンシが累積しない
ストリーミング環境　(実世界での応用)
処理が終了したかどうかに関わらず、次々とフレームが与えられる
- レイテンシが累積する

従来の研究のようなオフライン環境での実験や評価には問題がある

高度なperceptionを実現するために

実世界の応用：人間の反応時間(200ms)に匹敵する速さのperceptionが求められる
ストリーミング環境特有の課題 : アルゴリズムが処理を終えるまでに周囲の環境が遷移してしまう

そのため、周囲の環境を認識・行動するためには、将来の状態を予測することが必要

提案ベンチマークの詳細

streaming accuracy

適切な評価指標を確立
精度とレイテンシを一貫して評価
トレードオフの良さを評価できる

	速い	遅い
正確	○	△
不正確	△	×

指標の特徴

	従来の評価	今回の評価
ground truth	入力フレームを使用	現在のフレームを使用
生成された予測	入力フレームから生成	入力フレームから生成
評価の式	( y_t , y^{^}_t )	( y_t , y^{^}_φ(t) )

t : 連続的な時間（i = 1 ~ T）
φ(t_i) : アルゴリズが最後に予測を出した時間　φ(t_i) = argmax_j s_j < t_i
s_j : 特定の予測(y^{^})が要求された時間 ( j = 1 ~ N < T)

L_streaming : streaming accuracy
L : 評価関数（AP、IoUなど）
y : ground truth　
t : 連続的な時間（ i = 1 ~ T）　
y^{^} : 予測
φ(t_i) = argmax_j s_j < t_i
s_j : 特定の予測(y^{^})が要求された時間 ( j = 1 ~ N < T)

様々な評価指標(AP,IoUなど)を拡張し、レイテンシと精度を同時評価できる

pseudo ground truth

高フレームレートかつ高アノテーションレートのデータセットを人の手を使わずに作れる
- 擬似的なground truth を作成する
- 高精度の評価器(HTC)がオフライン環境で物体検出を行なった結果を用いる
- pseudo ground truth によるAPと実際のground truthを用いたAPは相関が高い
  - 相関係数 : 0.9925(正規化済み)
- 性能評価に用いることができる (今回の性能評価には用いられていない)