「Swin Transformer」の概要を理解する
はじめに 前回、基礎となる「Transformer」の概要を(大雑把にだけど)理解したので、本命である「Swin Transformer」 ...
はじめに 前回、基礎となる「Transformer」の概要を(大雑把にだけど)理解したので、本命である「Swin Transformer」 ...
。小さい物体は周辺物体との共起性の傾向が強く、広い範囲でのコンテキスト情報を学習できるTransformer系のバックボーンは小さい物体の検出に強いと言える。 視点変化(vi ...
Transformerはこれらの問題をどのように解決した? Patch MergingというPoolingのように画像の縦横を小さくする機構を導入 Vision
Transformer: Hierarchical Vision Transformer Using Shifted Windows 実装のURL:http ...
ウを並列で見ることでSOTA。 GLiT: Neural Architecture Search for Global and Local Image Transformer ...
だったが、BNのないViTでも適用できるようにした。 キモ:TransformerはMulti Head Attentionで前景パッチにattentionが当たりやすい観察 ...
Transformer V2でLog-CPBというlog-spacedな座標があったので検討してみたがこの方針では正規分布に変換する関数には見えない。 参考:
Transformer: Hierarchical Vision Transformer Using Shifted Windows」 新たなVision
Transformer, swin_large_patch4_window7_224_in22k / swin_large_patch4_ ...
Transformer) even with slightly lower FLOPs. In addition, AS-MLP is also the first MLP- ...