【論文読み】
今回は2025年6月に発表された、点追跡(Point Tracking)の分野で大きな注目を集めている「AllTracker」という論文を読んでいきます。
- 論文: AllTracker: Efficient Dense Point Tracking at High Resolution
どんなもの?
一言でいうと、「動画内の点の動きを追跡する」というタスクを、「ある1フレームから他の全フレームへの高密度な動き(フロー)を推定する」タスクとして捉え直したモデルです。これにより、これまで難しかった「高解像度」で「高密度(全ピクセル)」な点を、「長距離」かつ「高速」に追跡することを可能にしました。
先行研究と比べてどこがすごい?
従来の技術には、それぞれ一長一短がありました。
- オプティカルフロー: 隣接フレーム間の動きしか見れないため、長距離の追跡は誤差が蓄積しがちでした。
- 従来のPoint trackingモデル: 長距離追跡は得意ですが、まばらな(スパースな)点しか追えず、高解像度な映像だと計算量的に厳しいという弱点がありました。
AllTrackerは、この両者の**「いいとこ取り」**をしたのがすごい点です。 - オプティカルフローのように高密度な出力をしつつ、数百フレーム先にわたる長距離追跡を実現。
- 従来の点追跡モデルが苦手だった高解像度の映像を効率的に処理できます。
技術や手法のキモ
AllTrackerのキモは、論文のFigure 2より、処理の流れが分かりやすく図示されています。
キモとなるポイントは以下の3つです。
-
低解像度グリッドでの反復改善:計算の大部分を、わざと解像度を1/8に落としたグリッド上で行います。これにより計算量を大幅に削減し、高速な処理を可能にしています。
- 空間的な情報の伝播:2D畳み込みを使って、ピクセル間の位置関係の情報を効率よく伝えます。
- 時間的な情報の伝播: 各ピクセルが時間軸に沿ってどう動くか、という一貫性はピクセル単位のAtttientionで捉えます。これにより、一時的に物陰に隠れるような難しいシーンでも追跡を可能にします。
-
効率的なアップサンプリング:低解像度で推定した動きの情報を、最後にPixel-Shuffleという効率的な手法で元の高解像度に戻します。 これにより、最終的な出力は高解像度かつ高密度なトラッキング結果となります。
-
多様なデータでの学習:従来の点追跡データセットだけでなく、オプティカルフローのデータセットも学習に使えるのが大きな利点です。 これにより、より多様な動きのパターンを学習でき、高い汎化性能につながっています。
手法の詳細
①:AllTrackerの主要な要素「iterative refinement block」
AllTrackerの性能の核となるのが、推定した動きを何度も見直して精度を上げていくiterative refinement blockです。論文の補足資料にある下の図(Figure 5)がその詳細です。入力された情報を、空間方向と時間方向に何度もやり取りさせて、精度を高めていく様子が見て取れます。
論文 補足資料 Figure 5 より。このブロックが何度も(論文では4回)繰り返されます。
これは、大きく2つのブロックを交互に繰り返すことで、動きの推定を洗練させていき
ます。
- 空間ブロック (Spatial Block / 2D ConvNeXt)
- 役割: 画像の中での空間的な情報をやり取りします。
- やってること: 2Dの畳み込み処理(ConvNeXt Block)を使って、「この物体の部分は、全体的に同じ方向に動いているはずだ」といった、空間的な動きの滑らかさや一貫性を捉えます。 オプティカルフローモデルが得意としてきた部分です。これにより、テクスチャのない領域でも、周りの動きから自身の動きを類推することができます。
- 時間ブロック (Temporal Block / Pixel-aligned Transformer)
- 役割: フレームをまたいだ時間的な情報をやり取りします。
- やってること: TransformerのAttention機構を使い、ある1つのピクセルが、時間軸に沿ってどのような軌跡を辿るべきか、という動きの一貫性を学習します。 これが点追跡モデルが得意としてきた部分です。これにより、追跡対象が一時的に隠れてしまう「オクルージョン」が発生しても、その前後の文脈から「きっとこう動いたはずだ」と動きを補間できます。
この空間(2D畳み込み)と時間(Transformer)の情報のやり取りを、低解像度グリッド上で何度も繰り返すことにより、AllTrackerの精度と効率を両立させています。
②:「動きの表現方法」
AllTrackerのもう一つの主要な点は、「動き」をどう表現するかにあります。
従来の多くの手法は、前のフレーム(t-1)から現在のフレーム(t)への動きを計算し、それを数珠つなぎにすることで長距離の軌跡を計算していました(通称:チェイニング)。 しかし、この方法では各ステップで生じるわずかな誤差がどんどん蓄積し、大きなズレ(ドリフト)につながるという根本的な問題を抱えていました。
一方、AllTrackerは**「最初のフレーム(0)から現在のフレーム(t)への直接的な動き(変位)」**を推定します。
この手法が、AllTrackerの長距離追跡における安定性と正確性を支える点となっています。
③:学習方法
- 2段階の学習:
- まず、Kubricという大規模な合成データセットだけで20万ステップ学習させます。
- 次に、オプティカルフロー用と点追跡用の多種多様なデータセットを混ぜ合わせたもので、さらに40万ステップ学習(ファインチューニング)します。
- 混合データ学習:
これが非常に重要で、AllTrackerは従来の点追跡モデルが使ってこなかったオプティカルフロー用のデータセット(FlyingChairs, KITTIなど多数)も学習に活用します。- 点追跡データからは…: 物体が隠れたりする長時間の複雑な軌跡のパターンを学ぶ。
- フローデータからは…: フレーム間の精密で細かい動きのパターンを学ぶ。
この戦略により、モデルはマクロな動きとミクロな動きの両方を理解できるようになり、よりロバストで汎化性能の高いモデルになります。 論文の比較表(Table 1)を見ると、この混合データでの学習(Kubric+mix)が、単一データでの学習(Kubric)よりも多くのベンチマークで性能を向上させていることが分かります。
最後に、論文の定性評価(Figure 4)を見ると、なぜAllTrackerが優れているのかが直感的にわかります。
- 従来のフローモデル (RAFTなど) は、動きが大きいと対象を見失い、背景の動きだけを出力しがちです。
- 従来の点追跡モデル (CoTracker3など) は、長距離を追えますが、出力される動きの場が**斑点状のノイズ(splotchy pattern errors)**を含み、空間的に滑らかではありません。
- AllTrackerの出力は、**空間的に滑らか(Coherent)**でありながら、長距離でも正確です。
評価実験
- BADJA、TAP-Vid、RoboTAPなど、動物からロボットまで多岐にわたる9つの公開ベンチマークで評価しています。
- 評価指標は $\delta_{avg}$ という、複数のピクセル誤差閾値(1, 2, 4, 8, 16px)での正解率を平均した、ロバストな指標を用いています。
- [cite_start]CoTracker3やDELTAといった、近年の主要なSOTAモデルと比較しています。
結果
-
平均スコアでSOTA超え: 9つのベンチマークの平均スコアで、これまでトップだったCoTracker3を上回りました (66.1 vs 65.0)。
-
高解像度で特にに精度向上: $768 \times 1024$ の高解像度評価では、AllTrackerがCoTracker3に明確な差をつけました。特に、軽量版のAllTracker-TinyでさえCoTracker3を上回るという驚きの結果に。 これはAllTrackerの構造がメモリ効率に優れ、高解像度に適していることを示しています
-
速度と精度の両立: 下のグラフが示すように、AllTrackerはオプティカルフローモデル並みの速度を維持しつつ、点追跡モデル以上の精度を達成しており、速度と精度のトレードオフで他を圧倒しています
-
論文のFigure 3より。右上に位置するAllTracker(赤丸)が、速度(横軸)と精度(縦軸)の両面で優れていることがわかります。
議論
- 限界点: 純粋なオプティカルフローのベンチマーク(SINTELなど)では、専門のSOTAモデル(SEA-RAFTなど)には及ばない結果となっています。短距離の細かい動きの推定は、まだ改善の余地があるようです。
- 今後の展望: より大きなGPUメモリを使えば、一度に処理する時間窓を広げることができ、さらに長時間のオクルージョンにも対応できる可能性があります。また、3D情報や物理的な制約をモデルに組み込むことも、今後の発展として挙げられています。
次に読むべき論文は?
- CoTracker3: 今回の主要な比較対象
- Karaev, N., et al. (2024). [cite_start]CoTracker3: Simpler and better point tracking by pseudo-labelling real videos.
- SEA-RAFT: AllTrackerがモデル構造の着想を得た、オプティカルフローのSOTA手法です
- Wang, Y., et al. (2024). [cite_start]Sea-raft: Simple, efficient, accurate raft for optical flow.