Swin Transformerを理解する

Posted at 2025-03-17

はじめに

　こんにちは。まっちゃです。
　今回は、画像認識モデルのSwin Transformerについて、まとめていきます。

なぜ重要か

　画像認識モデルのアーキテクチャは、主流であったCNNからTransformerベースに置き換わりつつあります。本記事では、Transformerベースの画像認識モデルであるSwin Transformerを取り上げ、従来モデルからの改善手法を解説します。

Transformer

　まず、前提知識となるTransformerについて解説します。Transformer以前における自然言語処理などの系列データ処理では、RNN(Recurrent Neural Network)が主に用いられていました。しかしRNNを用いたモデルには、以下に示す問題点がありました。

逐次処理であり、並列な実行が不可
メモリ使用量が増加
長文における依存関係の学習難易度が高い
入力シーケンスが長い場合、記憶が困難

　これらの問題を解決するため、以下の特徴をもつTransformerが提唱されました。

Attentionのみで構成されたモデル
CNNやRNNを用いられておらず並列処理が可能となり、メモリ使用量を節約
長文における依存関係を学習することが可能
長期記憶が可能であり、翻訳タスクにおける精度を向上

　ここからTransformerの中身を見ていきます。以下の図に、Transformerのアーキテクチャを示します。論文で示されているモデルは、エンコーダ・デコーダモデルのTransformerです。このモデルにおけるデータの入力から出力までの流れは、以下のようになります。

入力した文をベクトル化して位置情報を加算した後、エンコーダに入力（Input Embedding + Positional Encoding）
受け取った値に対してAttentionを算出（エンコーダ側のMulti-Head Attenrion）
エンコーダから出力された値とデコーダにおいて算出された中間の値からAttentionを算出（デコーダ側のMulti-Head Attenrion）
出力された値にソフトマックス関数を適用して、最終的な値を出力

　以下で、Transformerにおける各処理を解説していきます。

Self-Attention
　Attentionは、1文における各単語の関連度（注目度）であり、次式を用いて算出されます。
$$\mathrm{Attention}(Q, K, V) = \mathrm{softmax}\Bigl(\frac{QK^T}{\sqrt{d}}\Bigr)V$$
　ここでQはクエリ、Kはキー、Vはバリューとなります。検索システムで考えた場合、検索クエリQに一致するKを検索ストアから探索し、Kに対応するVを返す処理に由来します。
　式中の$\mathrm{softmax}\Bigl(\frac{QK^T}{\sqrt{d}}\Bigr)$は関連度の重みを表しており、Attentionは関連度に応じてベクトルをまとめる処理となります。この時、次元数の平行根$(\sqrt{d})$で除算する理由は、分散を均すことで勾配消失を削減するためです。
　Q, K, Vに同じ情報源を用いた場合のAttentionは、Self-Attentionと呼ばれます。
Multi-Head Attention
　以下の図に、Multi-Head Attentionの概要図を示します。単一のAttentionのみで算出した場合、関連度の小さいベクトルの影響が無視されます。結果として、作成されるベクトルは重要度に関する特徴が乏しい状態となり、汎用性が低いモデルとなります。そこで、多くの特徴を抽出し汎用性が高いモデルを獲得するため、複数のAttentionを並列実行します。
　
Masked Multi-Head Attention
　Attentionの計算をそのまま行うと、モデルは予測する単語の情報が分かる状態になります。この状態で学習を行った場合、完璧に翻訳できるものの汎用性がないモデルになります。この状態を避けるため、未来の情報にアクセスしないよう、マスキングを行ったMasked Multi-Head Attentionを計算します。
Positional Encoding
　Embeddingにおいてベクトル化したデータは位置情報を持たず、そのまま学習した場合には位置の入れ替えに対して不変性がないモデルとなります。そこで、ベクトル化したデータに位置エンコーディングを加算することで、位置の学習を可能にしています。

ViT(Vision Transformer)

　続いて、Transformerを用いた画像認識モデルのViTについて解説します。ViTはそれまで主流であったCNNベースの画像認識モデルに対して同等以上の性能を発揮し、注目されました。
　以下の図に、ViTのアーキテクチャを示します。ViTは、前述したTransformerのエンコーダ部分を取り出して、入力データを画像に置き換えたモデルとみなすことが出来ます。ViTにおけるデータの入力から出力までの流れは、以下のようになります。

画像をパッチに分割後、ベクトル化（Linear Projection of Flattened Patches）
ベクトルを埋め込み、位置情報を加算してエンコーダに入力（Patch + Position Embedding）
受け取った値に対してAttentionを算出（Multi-Head Attenrion）
出力された値を全結合層に入力し、分類を実行

　以下の図に、モデルが学習した各パッチにおける位置情報の関連度を示します。各パッチについて、それぞれ異なる位置で関連度が高くなっています、また、同じ行、列において類似した箇所の関連度が高い傾向も見られます。