1. 概要
本記事では、CVPR 2024の論文「Learning Correlation Structures for Vision Transformers」を解説します。この研究は、Vision Transformers (ViTs)の性能を大幅に向上させる新しいSelf-Attention機構「構造的Self-Attention (StructSA)」を提案しています。StructSAは、query-keyの相互作用から自然に生じる豊かな相関パターンを活用し、画像や動画の空間的配置、物体の動き、物体間の関係などの構造をより効果的に捉えることができます。この手法を用いたStructural Vision Transformer (StructViT)は、ImageNet-1Kや複数の動画分類タスクで最先端の結果を達成し、特に動作認識において顕著な改善を示しました。
2. 研究背景と課題
Vision Transformers (ViTs)は、深層学習分野で成功を収めていますが、標準的なSelf-Attention機構には空間的・時間的構造を効果的に捉える能力に限界があります。
図1: 標準的なSelf-Attentionと構造的Self-Attentionの比較。(a)入力ビデオ、(b)query-key相関マップ、(c)提案された注意機構
図1は、標準的なSelf-Attention機構の限界を示しています。具体的には、以下の点が問題となっています:
-
個別の相関値の扱い:従来のSelf-Attentionは、query-keyの相関値を個別に扱います。例えば、ある物体の一部(例:犬の耳)に注目する際、その周辺情報(犬の顔全体)を考慮せず、独立した点として扱ってしまいます。
-
幾何学的構造の無視:相関マップ(attention map)全体が持つ空間的または時間的なパターンを認識しません。例えば、歩行者の動きを追跡する際、連続したフレーム間の関連性を考慮せず、各フレームを独立して処理してしまいます。
-
周辺情報の限定的な利用:各位置の特徴を集約する際、周囲の情報を動的に考慮する仕組みがありません。例えば、街路の画像を解析する際、建物と道路の関係性を考慮せず、それぞれを独立した要素として扱ってしまいます。
これに対し、提案されたStructSAは、これらの相関構造を認識し、より豊かな表現学習を可能にします。具体的には以下のような能力が向上します:
- 空間的配置の把握:例えば、室内のシーンにおいて家具の配置や関係性を理解する
- 物体の動きの軌跡の理解:例えば、スポーツ映像において選手の動きのパターンを認識する
- 物体間の空間的・時間的な関係性の認識:例えば、交通シーンにおいて車両と歩行者の相対的な位置や動きを捉える
- 局所的な特徴と大域的な情報の効果的な統合:例えば、顔認識タスクにおいて、目や鼻などの個別の特徴と顔全体の構造を同時に考慮する
3. 提案手法の詳細説明
3.1 構造的Self-Attention (StructSA)
StructSAは、標準的なSelf-Attention機構を拡張し、query-keyの相関構造を効果的に利用します。主に以下の2つのステップで構成されています:
- 構造的query-key attention
- 周辺情報を考慮した値の集約
3.1.1 構造的query-key attention
従来のSelf-Attentionでは、個々の相関値がそのままattention scoreとして使用されていましたが、StructSAでは相関マップ全体を入力として受け取り、畳み込み演算を用いて構造的特徴を検出します:
$$A_i = σ(conv(q_i K, U_K)) ∈ R^(N×D)$$
ここで、$U_K ∈ R^(M×D)$はD個の畳み込みカーネル(サイズM)を表し、$σ$はソフトマックス関数です。
この操作により、以下のような「構造的特徴の抽出」が行われます:
- 空間的パターンの認識:物体の形状や配置に関する情報を抽出(例:顔の各部位の相対的位置関係)
- 時間的パターンの検出:動きの軌跡や時系列的な変化を捉える(例:手話動作の連続した変化)
- マルチスケール特徴の統合:細かい詳細と全体的な構造を同時に考慮(例:テクスチャと物体の全体形状)
これらの抽出された特徴は、後続の処理でより詳細で有用な情報として活用されます。
図2: StructSAの詳細な構造。query-keyの相関マップから構造的特徴を抽出し、動的なカーネルを生成して値の特徴を集約します。
3.1.2 周辺情報を考慮した値の集約
構造的query-key attentionで得られたスコアを用いて、値の特徴の周辺情報を動的に集約します:
$$y_i = Σ_j σ_j(q_i K^T_j U_K) U_V^T V_j$$
ここで、$U_V ∈ R^(M×D)$はcontext aggregatorとして機能し、各位置jに対して動的なカーネル$κ_{struct_{i,j}}$を生成します。
この段階で特筆すべき点は以下の通りです:
- 動的カーネル生成:各位置に応じて異なる集約パターンを学習(例:物体の中心部と境界部で異なる集約方法を適用)
- マルチヘッド構造:複数の注意パターンを並行して学習(例:色、形状、テクスチャなど異なる特徴に注目)
- 長距離依存関係の捕捉:広範囲の情報を効果的に統合(例:画像の離れた位置にある関連物体の情報を結びつける)
3.2 畳み込みSelf-Attentionとの関係
著者らは、StructSAと最近の畳み込みSelf-Attention(ConvSA)との関係も詳細に分析しています。ConvSAは以下のように表現できます:
$$y_i = Σ_j σ_j(q_i K^T_j u_K) u_V^T V_j$$
ConvSAは単一のパターン検出器$u_K$とcontext aggregator $u_V$を使用するのに対し、StructSAは複数のパターン検出器とcontext aggregatorを使用することで、より豊かな構造的特徴を捉えることができます。具体的には:
- 多様なパターン認識:複数の$U_K$により、異なる種類の空間・時間パターンを同時に検出(例:直線的な動きと曲線的な動きを同時に認識)
- 適応的な特徴集約:複数の$U_V$を用いて、検出されたパターンに応じて最適な集約方法を選択(例:物体の中心部と境界部で異なる集約方法を適用)
- スケール不変性の向上:異なるサイズの受容野を持つパターン検出器の組み合わせにより、様々なスケールの特徴を捉える(例:細かいテクスチャから大きな物体構造まで)
4. 評価実験と結果
StructSAの有効性を検証するため、著者らは画像分類と動画分類タスクで広範な実験を行いました。
4.1 画像分類
ImageNet-1Kデータセットでの実験結果を以下に示します:
表1: ImageNet-1Kでの性能比較。StructViTは全てのモデルサイズで最高性能を達成。
StructViTは、EfficientNetsやConvNextなどの強力なベースラインを上回り、特に大規模モデル(StructViT-L-4-1*)では86.7%のトップ1精度を達成しました。注目すべき点として:
- パラメータ効率:同等のパラメータ数で他モデルを上回る性能
- スケーラビリティ:モデルサイズの増加に伴う一貫した性能向上
- 転移学習能力:事前学習なしでの高い性能、より良い特徴表現の獲得を示唆
4.2 動画分類
Kinetics-400、Something-Something V1&V2、Diving-48、FineGymなどの動画分類ベンチマークでも評価を行いました。
表2: Kinetics-400での性能比較。StructViTはViTベースのモデルを大幅に上回り、最先端の性能を達成。
StructViT-B-4-1は、Kinetics-400で83.4%のトップ1精度を達成し、最先端の性能を示しました。特筆すべき結果として:
- 動作認識での優位性:Something-Something V1&V2で顕著な改善(+1.3%p)
- 細粒度動作分類:Diving-48とFineGymでの大幅な性能向上(+4.1%pと+3.3%p)
- 計算効率:同等のFLOPsで他モデルを上回る性能
これらの結果は、StructSAが特に時間的な構造や細かい動作パターンの認識に優れていることを示しています。
5. 結論と今後の展望
本研究は、Vision Transformersに構造的Self-Attention機構を導入することで、画像や動画の空間的・時間的構造をより効果的に捉えられることを実証しました。StructSAを用いたStructViTは、様々な画像・動画分類タスクで最先端の性能を達成し、その有効性が実証されました。
特に注目すべき点は以下の通りです:
- 構造的パターンの効果的な活用:シーンレイアウト、オブジェクトの動き、オブジェクト間の関係性をモデル化
- スケーラビリティと汎用性:様々なモデルサイズと異なるタスクでの一貫した性能向上
- 計算効率:既存手法と比較して、同等以下の計算量でより高い性能を実現
今後の研究方向として以下が考えられます:
- より大規模なモデルや事前学習データセットでのStructSAの評価
- 他のビジョンタスク(物体検出、セグメンテーションなど)へのStructSAの適用
- 自然言語処理タスクへのStructSAの応用可能性の探索
- StructSAの計算効率のさらなる改善、特に大規模モデルでの最適化
- マルチモーダル学習におけるStructSAの活用(画像-テキスト、動画-音声など)
StructSAは、視覚的表現学習における重要な進歩を示しており、今後のコンピュータビジョン研究に大きな影響を与えることが期待されます。特に、複雑な時空間パターンの認識が必要なタスクや、効率的な特徴抽出が求められる実世界アプリケーションにおいて、StructSAの応用が進むと予想されます。
参考文献
-
Kim, M., Seo, P. H., Schmid, C., & Cho, M. (2024). Learning Correlation Structures for Vision Transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).
-
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Houlsby, N. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. In Proceedings of the International Conference on Learning Representations (ICLR).
-
Touvron, H., Cord, M., Douze, M., Massa, F., Sablayrolles, A., & Jégou, H. (2021). Training data-efficient image transformers & distillation through attention. In International Conference on Machine Learning (ICML) (pp. 10347-10357).
-
Arnab, A., Dehghani, M., Heigold, G., Sun, C., Lučić, M., & Schmid, C. (2021). ViViT: A Video Vision Transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) (pp. 6836-6846).
-
Fan, H., Xiong, B., Mangalam, K., Li, Y., Yan, Z., Malik, J., & Feichtenhofer, C. (2021). Multiscale Vision Transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) (pp. 6824-6835).
-
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. In Advances in Neural Information Processing Systems (NeurIPS) (pp. 5998-6008).
-
Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., & Zagoruyko, S. (2020). End-to-End Object Detection with Transformers. In European Conference on Computer Vision (ECCV) (pp. 213-229).
-
Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., ... & Guo, B. (2021). Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) (pp. 10012-10022).