生成AIを用いてVision Transformerの論文「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (2020)」を読んでみた (続き)

Last updated at 2025-03-22Posted at 2024-09-11

はじめに

前回、生成AIを用いてVision Transformerの論文「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」の内容(本文)を(なるべく)把握してみました。
同論文の末尾にあるAppendixについても、前回と同様の方法で、把握してみます。

以降で、ChatGPTに聞いてみた例を記載します。

前回の記事: (本文の内容)

対象の論文

論文: (Vision Transformer (ViT)に関する論文)

[2010.11929] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
https://arxiv.org/abs/2010.11929
(PDF: https://arxiv.org/pdf/2010.11929)

質問時の各章節の区切り部分

論文の中にある各章節を、下記のように区切って、部分毎に生成AIに内容を質問していきます。

APPENDIX
A MULTIHEAD SELF-ATTENTION
---
B EXPERIMENT DETAILS
B.1 TRAINING
B.1.1 FINE-TUNING
---
B.1.2 SELF-SUPERVISION
---
C ADDITIONAL RESULTS
---
D ADDITIONAL ANALYSES
D.1 SGD VS. ADAM FOR RESNETS
D.2 TRANSFORMER SHAPE
D.3 HEAD TYPE AND C L A S S TOKEN
---
D.4 POSITIONAL EMBEDDING
---
D.5 EMPIRICAL COMPUTATIONAL COSTS
D.6 AXIAL ATTENTION
---
D.7 ATTENTION DISTANCE
D.8 ATTENTION MAPS
D.9 OBJECTNET RESULTS
D.10 VTAB BREAKDOWN

生成AIへの質問方法

生成AIを活用して、知りたい記事・論文の1節分(適度な長さ)のテキストをコピー＆ペーストして、その下に質問内容を「①～ ②～ …」と番号付きで書いて、生成AIに渡せば、全質問に一発で的確に回答してくれるので、非常に良好でした。記事全体を読む必要なく、知りたい点の情報だけを収集できます。

生成AIへの質問例:

(論文・記事の各章節を貼り付け)

上記の内容に関して下記の質問に回答下さい: (である調で記載、質問に対して該当するものが無ければ無しと記載、対応する図/表番号があれば記載)
①何についての記載か? + 要旨は何? (要旨は箇条書きで記載)
②改良点・工夫点・テクニック等の記載があれば説明下さい。
③性能が向上した記載があれば説明下さい。(具体値があれば記載、対応する図/表番号があれば各文末に記載)
④メカニズムの解明・なぜそうなるのか等の記載があれば説明下さい。
⑤具体的な処理方法の記載があれば説明下さい。(簡略化せずに全て記載、既存手法の適用であれば引用元を記載)

続けて下記の質問に追加で回答下さい:
⑥比較の記載があれば違いを表でまとめて下さい。(対応する図/表番号があれば明記)
⑦上記⑥以外で表に出来そうな部分があれば表でまとめて下さい。(対応する図/表番号があれば記載)
⑧具体的な数値の記載を全て列挙して、表にまとめて下さい。(|数値|説明|の表へ)
⑨具体的な変数名(symbol)の記載を全て列挙して、表にまとめて下さい。(|変数名|説明|の表へ)
⑩図/表があれば、各図/表は何を主張するためのものか(掲載理由・注目ポイント等)を説明下さい。

※回答が長くなりそうな場合は、適宜、分けて質問: ①②③④⑤、⑥⑦⑧⑨⑩
※その他、不明点があれば、適宜、追加で質問。

質問内容は、記事・論文を読んでいていつも知りたいと思う点(改良点・工夫点・テクニック・メカニズムの解明)にしています。また、表で比較した方が素早く把握できるので、可能であれば記事を表に変換するようにしています。

論文・記事を貼り付けるテキストの長さは、1節分程度の量にとどめた方が、良い回答が得られました。生成AIの回答の文量が多くなってくると、回答が長くなり過ぎないように、生成AIが勝手に(適度に)端折り始めてしまい、重要な点が回答から抜けてしまう可能性が高くなります。

事前知識

機械学習についてある程度知っていないと、生成AIに質問しても、その回答内容だけでは理解できないと思います。生成AIの回答は、論文の内容をあまり変えずに、要点をそのまま掻い摘んで回答するような形になっています。

Vision Transformer (ViT)についての分かりやすい解説記事(下記)等を事前にチェックして、中核部分の内容をあらかじめ分かっていると、理解しやすいと思います。生成AIは実際の細かい処理方法自体を分かりやすく説明してはくれない傾向があります。

注意点

論文のテキスト内容だけを貼り付けて、生成AIに質問しています。論文の中の図・表の部分は貼り付けていません。図・表の内容は生成AIの回答には含まれず、別途論文を見る必要があります。

以降で、生成AIの回答内容が読みにくい・分かりづらい場合は、論文の本文でも同じように書かれてあり、論文の本文を読んでも同じように分かりづらいことが多くあります。論文では、既存研究等があるため、多くの説明を省略・一言だけサラッと書かれてある等、同種の研究に取り組む人でなければ、なかなか全容の理解に辿りつくのは難しい側面があります。この点は、生成AIの回答性能が悪いのではなく、論文という性質上、生じるものと考えています。

生成AIに質問

以降で、ChatGPTに実際に聞いてみた例を記載します。

生成AIへの質問＆回答の全容

生成AIへの質問＆回答の全容・詳細:

APPENDIX

A MULTIHEAD SELF-ATTENTION

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) APPENDIX A MULTIHEAD SELF-ATTENTION Standard qkv self-attention (SA, Vaswani et al. (2017)) is a popular building block for neural archi- tectures. For each element in an input sequence z ∈ RN ×D , we compute a weighted sum over all values v in the sequence. The attention weights Aij are based on the pairwise similarity between two elements of the sequence and their respective query qi and key kj representations. [q, k, v] = zUqkv Uqkv ∈ RD×3Dh , (5) A = softmax ( qk>/√Dh ) A ∈ RN ×N , (6) SA(z) = Av . (7) Multihead self-attention (MSA) is an extension of SA in which we run k self-attention operations, called “heads”, in parallel, and project their concatenated outputs. To keep compute and number of parameters constant when changing k, Dh (Eq. 5) is typically set to D/k. MSA(z) = [SA1(z); SA2(z); · · · ; SAk(z)] Umsa Umsa ∈ Rk·Dh×D (8)

上記の内容に関して下記の質問に回答下さい: (である調で記載、質問に対して該当するものが無ければ無しと記載、対応する図/表番号があれば記載)
①何についての記載か? + 要旨は何? (要旨は箇条書きで記載)
②改良点・工夫点・テクニック等の記載があれば説明下さい。
③性能が向上した記載があれば説明下さい。(具体値があれば記載、対応する図/表番号があれば各文末に記載)
④メカニズムの解明・なぜそうなるのか等の記載があれば説明下さい。
⑤具体的な処理方法の記載があれば説明下さい。(簡略化せずに全て記載、既存手法の適用であれば引用元を記載)
⑥比較の記載があれば違いを表でまとめて下さい。(対応する図/表番号があれば明記)
⑦上記⑥以外で表に出来そうな部分があれば表でまとめて下さい。(対応する図/表番号があれば記載)
⑧具体的な数値の記載を全て列挙して、表にまとめて下さい。(|数値|説明|の表へ)
⑨具体的な変数名(symbol)の記載を全て列挙して、表にまとめて下さい。(|変数名|説明|の表へ)
⑩図/表があれば、各図/表は何を主張するためのものか(掲載理由・注目ポイント等)を説明下さい。

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?

この部分では、Transformerモデルの一部であるマルチヘッド自己注意機構（MSA）について説明されている。

要旨

標準的なqkv自己注意機構（Self-Attention: SA）は、入力シーケンス内の各要素が全体の値に基づいて重み付き和を計算する手法である。
注意重みは、シーケンス内の要素間のクエリ (q) とキー (k) の類似度に基づいて計算される (式5, 6)。
マルチヘッド自己注意 (MSA) は、複数の自己注意操作を並列に実行し、それらの出力を結合する拡張版である (式8)。
MSAでは、計算コストとパラメータ数を一定に保つため、個々の自己注意操作におけるキー/クエリ/値の次元数 Dh は、全体の次元数Dをヘッド数kで割った値に設定される。

②改良点・工夫点・テクニック等の記載

MSAの設計において、以下の工夫がなされている:

計算コストとパラメータ数を一定に保ちながら、異なる注意機構を並列に実行するために、DhをD/kに設定する。このアプローチにより、並列処理が可能になり、より多様な注意重みを学習できる。
各自己注意の出力を結合し、それらをプロジェクションすることで、モデルの表現力を向上させている (式8)。

③性能が向上した記載

性能向上に関する具体的な記載は無いが、MSAにより、複数の異なる自己注意重みを学習することが可能となり、表現の多様性が向上することが期待される。

④メカニズムの解明・なぜそうなるのか等の記載

注意重みAは、シーケンス内の要素間のペアワイズな類似度に基づいて計算され、これがシーケンス全体に対してどのように情報を収集するかを決定する。
MSAでは、異なるヘッドが異なる部分に注意を向けるため、各ヘッドが異なる特徴に着目でき、より多様な情報を効率的にキャプチャすることができる。

⑤具体的な処理方法の記載

自己注意機構の具体的な手順:
- 入力シーケンス $ z $ に対して、クエリ $ q $、キー $ k $、バリュー $ v $ を計算するための変換行列 $ U_{qkv} $ を適用する (式5)。
- クエリとキーの内積を取ったものに基づいて、ソフトマックス関数で正規化された注意重み $ A $ を計算する (式6)。
- 最後に、注意重み $ A $ をバリュー $ v $ に適用して、自己注意の出力 $ SA(z) $ を得る (式7)。
MSAの処理:
- $ k $ 個の自己注意操作を並列に実行し、それらの出力を結合して最終出力を得る (式8)。

⑥比較の記載

機構	計算方法	パラメータ数	出力形式	記載箇所
SA (自己注意)	ソフトマックス正規化された重みを用いたバリューの加重和	高い	単一の自己注意出力	式7
MSA (マルチヘッド自己注意)	複数のSA操作を並列実行	一定 (Dh = D/k)	各ヘッドの出力を結合	式8

⑦上記⑥以外で表に出来そうな部分

該当無し。

⑧具体的な数値の記載

数値	説明
$ D $	入力次元数
$ k $	ヘッド数
$ Dh = D/k $	各ヘッドの次元数

⑨具体的な変数名の記載

変数名	説明
$ z $	入力シーケンス
$ q, k, v $	クエリ、キー、バリュー
$ U_{qkv} $	クエリ、キー、バリューを計算するための変換行列
$ A $	注意重み
$ D $	入力次元数
$ Dh $	各ヘッドの次元数
$ k $	ヘッド数
$ U_{msa} $	マルチヘッド自己注意の出力をプロジェクションするための行列

⑩図/表があれば、各図/表は何を主張するためのものか

図や表の記載無し。

B EXPERIMENT DETAILS

B.1 TRAINING

B.1.1 FINE-TUNING

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) B EXPERIMENT DETAILS B.1 TRAINING Table 3 summarizes our training setups for our different models. We found strong regularization to be key when training models from scratch on ImageNet. Dropout, when used, is applied after every dense layer except for the the qkv-projections and directly after adding positional- to patch embeddings. Hybrid models are trained with the exact setup as their ViT counterparts. Finally, all training is done on resolution 224. B.1.1 FINE-TUNING We fine-tune all ViT models using SGD with a momentum of 0.9. We run a small grid search over learning rates, see learning rate ranges in Table 4. To do so, we use small sub-splits from the training set (10% for Pets and Flowers, 2% for CIFAR, 1% ImageNet) as development set and train on the remaining data. For final results we train on the entire training set and evaluate on the respective test data. For fine-tuning ResNets and hybrid models we use the exact same setup, with the only exception of ImageNet where we add another value 0.06 to the learning rate sweep. Additionally, for ResNets we also run the setup of Kolesnikov et al. (2020) and select the best results across this run and our sweep. Finally, if not mentioned otherwise, all fine-tuning experiments run at 384 resolution (running fine-tuning at different resolution than training is common practice (Kolesnikov et al., 2020)). When transferring ViT models to another dataset, we remove the whole head (two linear layers) and replace it by a single, zero-initialized linear layer outputting the number of classes required by the target dataset. We found this to be a little more robust than simply re-initializing the very last layer. For VTAB we follow the protocol in Kolesnikov et al. (2020), and use the same hyperparameter setting for all tasks. We use a learning rate of 0.01 and train for 2500 steps (Tab. 4). We chose this setting by running a small sweep over two learning rates and two schedules, and selecting the setting with the highest VTAB score on the 200-example validation sets. We follow the pre-processing used in Kolesnikov et al. (2020), except that we do not use task-specific input resolutions. Instead we find that Vision Transformer benefits most from a high resolution (384 × 384) for all tasks.

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?

この部分では、モデルのトレーニングおよびファインチューニングの詳細について記載されている。

要旨

Table 3に、さまざまなモデルのトレーニング設定がまとめられている。
ImageNet上でモデルをゼロからトレーニングする際、強力な正則化が重要であり、ドロップアウトが有効であった。
ファインチューニングには、SGD（モメンタム0.9）を使用し、学習率の小規模なグリッドサーチを実施している（Table 4に範囲を記載）。
ViTモデルを他のデータセットに転送する際、最後のヘッド部分（2つの線形層）を削除し、ゼロ初期化された単一の線形層に置き換えている。
すべてのファインチューニング実験は、異なる解像度でトレーニングされることが一般的であり、解像度384で実行している。
VTABのタスクに関しては、Kolesnikovら（2020）のプロトコルに従い、全てのタスクで同じハイパーパラメータを使用している。

②改良点・工夫点・テクニック等の記載

正則化: 強力な正則化がゼロからトレーニングする際の重要な要素であることが示されている。特に、ドロップアウトが全ての全結合層後に適用されるが、qkvプロジェクションやポジショナルエンコーディングを追加する直後には適用されない工夫がなされている (Table 3)。
ファインチューニング: 解像度384×384で実行することで、Vision Transformer (ViT) が他の解像度よりも高い性能を発揮することが確認されている。また、ヘッド部分をゼロ初期化された線形層に置き換えることで、より安定した性能を実現している。
ハイパーパラメータの設定: VTABタスクに対するファインチューニングでは、同一のハイパーパラメータ設定を使用し、統一したアプローチが採用されている。

③性能が向上した記載

解像度を高くする（384×384）ことで、ViTが最適な性能を発揮することが確認された (Table 4)。
ドロップアウトが過学習を防ぎ、トレーニングの安定性を向上させることに寄与している (Table 3)。

④メカニズムの解明・なぜそうなるのか等の記載

正則化としてのドロップアウトは、過学習を防ぎ、モデルの汎化性能を高める役割を果たす。
高解像度でのトレーニングにより、ViTはより多くの詳細な情報をキャプチャし、異なるデータセットへの転移性能が向上する。

⑤具体的な処理方法の記載

トレーニング:
- ドロップアウトは全結合層の後に適用されるが、qkvプロジェクションやポジショナルエンコーディングを追加した直後には適用されない (Table 3)。
- ハイブリッドモデルもViTモデルと同じ設定でトレーニングされている。
- すべてのトレーニングは解像度224で実行されている。
ファインチューニング:
- SGD（モメンタム0.9）を使用し、学習率は小規模なグリッドサーチにより決定されている。
- ImageNetのファインチューニングにおいては、ResNetでは追加の学習率0.06を試している。
- 他のデータセットにViTモデルを転送する際、ヘッド部分をゼロ初期化された線形層に置き換えている。

⑥比較の記載

モデル設定	解像度	使用アルゴリズム	正則化	結果	表番号
ViT標準	224	SGD (モメンタム0.9)	ドロップアウトあり	高性能	Table 3
ResNetファインチューニング	384	SGD (モメンタム0.9, 学習率0.06)	ドロップアウトあり	ベスト結果選択	Table 4
VTABタスク	384	SGD (モメンタム0.9, 学習率0.01)	ドロップアウトなし	最高スコア	Table 4

⑦上記⑥以外で表に出来そうな部分

データセット	トレーニングデータ割合	検証データ割合
Pets & Flowers	90%	10%
CIFAR	98%	2%
ImageNet	99%	1%

⑧具体的な数値の記載

数値	説明
0.9	SGDのモメンタム値
0.06	ImageNetファインチューニング時の追加学習率
384	ファインチューニング時の解像度
2500	VTABタスクの学習ステップ数
0.01	VTABタスクの学習率

⑨具体的な変数名の記載

変数名	説明
SGD	確率的勾配降下法
ViT	Vision Transformer
ResNet	Residual Neural Network
VTAB	Visual Task Adaptation Benchmark

⑩図/表があれば、各図/表は何を主張するためのものか

Table 3: トレーニング設定をまとめ、特に正則化と解像度の影響を強調している。
Table 4: ファインチューニングの学習率範囲と、異なるモデルに対する学習率の影響を比較している。

▼質問(人間)
上記の「ファインチューニング」の具体的な処理方法について記載があれば、簡略化せず元文内容から全て抜き出して説明下さい。(具体値があれば記載、対応する式番号があれば記載、既存手法の適用であれば引用元を記載)

▼生成AIの回答(ChatGPT-4o)
ファインチューニングの具体的な処理方法

SGD（確率的勾配降下法）
ファインチューニングには**SGD（モメンタム0.9）**を使用する。これは、標準的な確率的勾配降下法にモメンタムを加えた手法で、学習の安定性と収束速度を向上させるための手法である。モメンタムの値は0.9に設定されており、これによって過去の勾配の情報を活用し、振動を減らしつつ早期の収束を促進する。
学習率のグリッドサーチ
学習率に関しては、小規模なグリッドサーチを実行して最適な学習率を選定している。具体的には、Table 4に記載されている学習率の範囲内で探索を行っている。このサーチは、全体のトレーニングデータの一部（小さなサブセット）を開発セットとして使用し、最適な学習率を選ぶためのものである。
- データセットごとの開発セット割合:
  - PetsとFlowers: トレーニングセットの10%
  - CIFAR: トレーニングセットの2%
  - ImageNet: トレーニングセットの1%
最終結果
開発セットでの学習率のグリッドサーチを経て、最終的なモデルのファインチューニングは、すべてのトレーニングデータを使用して行い、対応するテストデータで評価を実施している。
ResNetおよびハイブリッドモデルのファインチューニング
ResNetやハイブリッドモデルのファインチューニングは、基本的にViTモデルと同じ設定で行われているが、例外としてImageNetの場合には、追加で学習率0.06をスイープに加えている。また、ResNetのファインチューニングでは、Kolesnikovら（2020）による設定を採用し、その結果と本スイープによる結果の中から最良の結果を選択している（引用: Kolesnikov et al., 2020）。
解像度
すべてのファインチューニング実験は、解像度384で実行されている。トレーニング時の解像度と異なる解像度でファインチューニングを行うことは一般的な手法であり、これによってモデルがより高い解像度で動作する際に得られる性能向上が期待されている。
Vision Transformer (ViT)の転送学習
他のデータセットに対するViTモデルの転送では、ヘッド部分（2つの線形層）を全て削除し、ゼロ初期化された単一の線形層に置き換えている。この方法が、単に最後の層を再初期化するよりも頑健であることが示されている。
VTABのプロトコル
VTABタスクに対しては、Kolesnikovら（2020）のプロトコルに従い、すべてのタスクで同じハイパーパラメータ設定を使用している。具体的には、学習率0.01で2500ステップトレーニングを行っている。学習率とスケジュールのスイープを行い、200サンプルの検証セットで最も高いスコアを達成した設定を選択している。また、Kolesnikovら（2020）の前処理方法を使用しているが、タスク固有の入力解像度は使用していない代わりに、384×384の高解像度がVision Transformerには最適であることが示されている。

論文から内容を抽出して回答する動作となり、良好。もっと説明がほしいと思っても、元の論文には上記の内容以外書かれていない。

▼質問(人間)
上記の「スイープ」とは?

▼生成AIの回答(ChatGPT-4o)
「スイープ（sweep）」とは、機械学習のトレーニングやファインチューニングにおいて、特定のハイパーパラメータ（例: 学習率、バッチサイズ、重み減衰など）を複数の異なる値で試し、それぞれの設定に対するモデルの性能を評価するプロセスを指す。

具体的には、以下のような手順を行う:

ハイパーパラメータの範囲や値を定義する（例: 学習率0.01、0.001、0.0001など）。
各ハイパーパラメータの設定でモデルをトレーニングし、結果を比較する。
最も良い性能を示す設定を選択し、最終的なモデルに適用する。

今回の場合、「学習率のスイープ」とは、複数の異なる学習率を試し、それぞれの学習率でのモデルの性能を評価し、最も効果的な学習率を選ぶプロセスを指している。

B.1.2 SELF-SUPERVISION

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) B.1.2 SELF-SUPERVISION We employ the masked patch prediction objective for preliminary self-supervision experiments. To do so we corrupt 50% of patch embeddings by either replacing their embeddings with a learnable [mask] embedding (80%), a random other patch embedding (10%) or just keeping them as is (10%). This setup is very similar to the one used for language by Devlin et al. (2019). Finally, we predict the 3-bit, mean color (i.e., 512 colors in total) of every corrupted patch using their respective patch representations. We trained our self-supervised model for 1M steps (ca. 14 epochs) with batch size 4096 on JFT. We use Adam, with a base learning rate of 2 · 10−4, warmup of 10k steps and cosine learning rate decay. As prediction targets for pretraining we tried the following settings: 1) predicting only the mean, 3bit color (i.e., 1 prediction of 512 colors), 2) predicting a 4 × 4 downsized version of the 16 × 16 patch with 3bit colors in parallel (i.e., 16 predictions of 512 colors), 3) regression on the full patch using L2 (i.e., 256 regressions on the 3 RGB channels). Surprisingly, we found that all worked quite well, though L2 was slightly worse. We report final results only for option 1) because it has shown best few-shot performance. We also experimented with 15% corruption rate as used by Devlin et al. (2019) but results were also slightly worse on our few-shot metrics. Lastly, we would like to remark that our instantiation of masked patch prediction doesn’t require such an enormous amount of pretraining nor a large dataset such as JFT in order to lead to sim- ilar performance gains on ImageNet classification. That is, we observed diminishing returns on downstream performance after 100k pretraining steps, and see similar gains when pretraining on ImageNet.

▼生成AIの回答(ChatGPT-4o)
① 何についての記載か? + 要旨は何?
この部分では、自己教師あり学習（Self-supervision）の実験に関する内容が記載されている。特に、マスクされたパッチ予測の目的での予備的な自己教師あり実験について説明している。

要旨

マスクされたパッチ予測を使用した自己教師あり学習の実験。
パッチ埋め込みの50%をマスクし、その予測を行う方法。
3-bitの平均色を予測する設定が最も良い結果を示した。
学習は1Mステップ（約14エポック）で行い、Adam最適化アルゴリズムを使用した。
100kステップの事前学習後には性能向上の限界に達し、より多くの学習はほとんど効果を示さなかった。

② 改良点・工夫点・テクニック等の記載

マスクされたパッチの予測において、埋め込みをマスク、ランダムなパッチに置き換える、またはそのままにするなど、複数の変動パターンを試した。
3つの異なる予測ターゲット設定を試したが、3-bitの平均色を予測する方法が最も優れていた。
学習率のウォームアップ期間を10,000ステップに設定し、コサイン学習率減衰を使用した。

③ 性能が向上した記載

3-bitの平均色を予測する設定で最高のfew-shot性能が得られた。
100,000ステップの事前学習後に性能の向上が止まり、それ以降の事前学習は効果が限定的であった。

④ メカニズムの解明・なぜそうなるのか等の記載

マスクされたパッチ予測における50%の腐敗率が最適であることを発見。これにより、パッチの表現能力が最大化され、学習効率が向上した。
学習率のウォームアップとコサイン学習率減衰が、学習の安定性と性能向上に寄与した可能性がある。

⑤ 具体的な処理方法の記載

入力パッチの50%を腐敗させ、そのうち80%を学習可能なマスク埋め込みに置き換え、10%をランダムな他のパッチ埋め込みに置き換え、残り10%はそのままにする。
3-bitの平均色（全512色）を予測するタスクを設定し、Adam最適化アルゴリズムを使用して学習を行った。
3つの異なる予測ターゲット設定（平均色予測、ダウンサイジングされたパッチ予測、L2回帰）を試し、その中で平均色予測が最も効果的であった。
コサイン学習率減衰を使用し、ベース学習率を2×10⁻⁴に設定。
1Mステップ（約14エポック）、バッチサイズ4096でJFTデータセットを使用してトレーニング。

⑥ 比較の記載

タスク	結果	備考
平均色予測 (3-bit color)	最良	few-shot性能が最も優れる
ダウンサイジングされたパッチの予測	良好	平均色予測より劣る
L2回帰	やや劣る	few-shot性能が低下

⑦ 上記⑥以外で表に出来そうな部分
無し

⑧ 具体的な数値の記載

数値	説明
50%	パッチ埋め込みの腐敗率
80%	学習可能なマスク埋め込みに置き換えた割合
10%	ランダムな他のパッチ埋め込みに置き換えた割合
2×10⁻⁴	ベース学習率
1M	総トレーニングステップ数
100k	事前学習後の性能向上の限界ステップ数
4096	バッチサイズ

⑨ 具体的な変数名(symbol)の記載

変数名	説明
Adam	最適化アルゴリズム
3-bit	平均色の予測に使用される色ビット数
L2	損失関数として使用されるL2回帰

⑩ 図/表があれば、各図/表は何を主張するためのものか
無し

良好。上記から内容が適切に把握できる。

C ADDITIONAL RESULTS

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) C ADDITIONAL RESULTS We report detailed results corresponding to the figures presented in the paper. Table 5 corresponds to Figure 3 from the paper and shows transfer performance of different ViT models pre-trained on datasets of increasing size: ImageNet, ImageNet-21k, and JFT-300M. Table 6 corresponds to Figure 5 from the paper and shows the transfer performance of ViT, ResNet, and hybrid models of varying size, as well as the estimated computational cost of their pre-training.

Table 5: Top1 accuracy (in %) of Vision Transformer on various datasets when pre-trained on Im-
ageNet, ImageNet-21k or JFT300M. These values correspond to Figure 3 in the main text. Models
are fine-tuned at 384 resolution. Note that the ImageNet results are computed without additional
techniques (Polyak averaging and 512 resolution images) used to achieve results in Table 2.

Table 6: Detailed results of model scaling experiments. These correspond to Figure 5 in the main
paper. We show transfer accuracy on several datasets, as well as the pre-training compute (in ex-
aFLOPs).

▼生成AIの回答(ChatGPT-4o)
① 何についての記載か? + 要旨は何?
この部分は、論文に掲載された図に対応する詳細な実験結果についての説明である。主に、Vision Transformer (ViT) の転移学習性能とモデルのスケーリングに関する結果が記載されている。

要旨

表5は、様々なデータセットで事前学習されたViTモデルの転移学習性能を示しており、データセットサイズが増加するにつれて性能が向上することを確認している。
表6は、ViT、ResNet、ハイブリッドモデルのサイズの違いに対する転移性能と、事前学習の計算コストを示している。

② 改良点・工夫点・テクニック等の記載

ViTモデルは、事前学習に使用されるデータセットのサイズが異なる（ImageNet, ImageNet-21k, JFT-300M）点が工夫として挙げられる。
転移学習時には384解像度で微調整が行われたことが述べられている。

③ 性能が向上した記載

ImageNet-21kやJFT-300Mで事前学習されたViTモデルは、より小さいデータセット（ImageNetなど）で事前学習されたモデルよりも高い転移学習性能を示している。具体的なTop1精度は表5に示されている。
（表5参照）
モデルスケーリングによっても転移性能が向上しており、特に大規模なViTモデルがより高い精度を達成している。
（表6参照）

④ メカニズムの解明・なぜそうなるのか等の記載

より大規模なデータセットで事前学習することで、モデルがより一般的な特徴を学習でき、他のデータセットへの転移性能が向上することが説明されている。
また、モデルのスケーリングが性能向上に寄与する理由は、より大きなモデルが複雑なパターンを捉える能力が高いためである。

⑤ 具体的な処理方法の記載

ViTモデルは、ImageNet, ImageNet-21k, JFT-300Mのデータセットで事前学習され、その後、様々なデータセットに転移学習された。
微調整（ファインチューニング）は、384解像度で行われた。
ImageNetの結果は、Polyak averagingや512解像度などの追加テクニックを使用せずに計算された。

⑥ 比較の記載
以下の表に、表5と表6に基づく比較結果を示す。

モデル	事前学習データセット	転移精度 (Top1, %)	計算コスト (exaFLOPs)	備考
ViT	ImageNet	表5参照	-	384解像度でファインチューニング
ViT	ImageNet-21k	表5参照	-
ViT	JFT-300M	表5参照	-
ResNet	-	表6参照	表6参照
Hybrid	-	表6参照	表6参照

⑦ 上記⑥以外で表に出来そうな部分

転移精度の詳細な数値や計算コストの比較は表でまとめられる。
（表5, 表6参照）

⑧ 具体的な数値の記載

数値	説明
384	解像度 (ファインチューニングに使用された)
exaFLOPs	計算コストの単位

⑨ 具体的な変数名(symbol)の記載
無し

⑩ 図/表があれば、各図/表は何を主張するためのものか

表5: ViTモデルが事前学習されたデータセットのサイズと、それに基づく転移精度を示しており、大規模データセットで事前学習されたモデルがより高い転移性能を示すことを主張している。
表6: モデルのスケーリングにより転移性能と計算コストがどのように変化するかを示している。

D ADDITIONAL ANALYSES

D.1 SGD VS. ADAM FOR RESNETS

D.2 TRANSFORMER SHAPE

D.3 HEAD TYPE AND C L A S S TOKEN

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) D ADDITIONAL ANALYSES D.1 SGD VS. ADAM FOR RESNETS ResNets are typically trained with SGD and our use of Adam as optimizer is quite unconventional. Here we show the experiments that motivated this choice. Namely, we compare the fine-tuning performance of two ResNets – 50x1 and 152x2 – pre-trained on JFT with SGD and Adam. For SGD, we use the hyperparameters recommended by Kolesnikov et al. (2020). Results are presented in Table 7. Adam pre-training outperforms SGD pre-training on most datasets and on average. This justifies the choice of Adam as the optimizer used to pre-train ResNets on JFT. Note that the absolute numbers are lower than those reported by Kolesnikov et al. (2020), since we pre-train only for 7 epochs, not 30. D.2 TRANSFORMER SHAPE We ran ablations on scaling different dimensions of the Transformer architecture to find out which are best suited for scaling to very large models. Figure 8 shows 5-shot performance on ImageNet for different configurations. All configurations are based on a ViT model with 8 layers, D = 1024, DM LP = 2048 and a patch size of 32, the intersection of all lines. We can see that scaling the depth results in the biggest improvements which are clearly visible up until 64 layers. However, diminishing returns are already visible after 16 layers. Interestingly, scaling the width of the net- work seems to result in the smallest changes. Decreasing the patch size and thus increasing the effective sequence length shows surprisingly robust improvements without introducing parameters. These findings suggest that compute might be a better predictor of performance than the number of parameters, and that scaling should emphasize depth over width if any. Overall, we find that scaling all dimensions proportionally results in robust improvements. D.3 HEAD TYPE AND C L A S S TOKEN In order to stay as close as possible to the original Transformer model, we made use of an additional [class] token, which is taken as image representation. The output of this token is then trans- formed into a class prediction via a small multi-layer perceptron (MLP) with tanh as non-linearity in the single hidden layer. This design is inherited from the Transformer model for text, and we use it throughout the main paper. An initial attempt at using only image-patch embeddings, globally average-pooling (GAP) them, followed by a linear classifier—just like ResNet’s final feature map—performed very poorly. However, we found that this is neither due to the extra token, nor to the GAP operation. Instead, the difference in performance is fully explained by the requirement for a different learning-rate, see Figure 9.

▼生成AIの回答(ChatGPT-4o)
① 何についての記載か? + 要旨は何?
この章では、ResNetのトレーニングにおけるSGDとAdamの比較実験、Transformerアーキテクチャのスケーリングに関する分析、そして、Transformerモデルにおけるヘッドタイプと[class]トークンの影響について説明している。

要旨

D.1 SGD vs. Adam for ResNets: ResNetをSGDとAdamの2つの異なるオプティマイザで事前学習した際のパフォーマンス比較が行われ、AdamがSGDより優れていることが示された。
D.2 Transformer Shape: Transformerアーキテクチャの異なるパラメータ（深さ、幅、パッチサイズ）をスケーリングした際の性能変化についてのアブレーション実験が行われ、深さをスケーリングすることで最も大きな性能向上が得られることがわかった。
D.3 Head Type and [class] Token: Transformerの[class]トークンの使用や、代替のグローバル平均プーリング(GAP)による影響を評価し、性能差が学習率に依存することが確認された。

② 改良点・工夫点・テクニック等の記載

D.1: ResNetにおいて従来のSGDではなくAdamを使用して事前学習を行うという点で、従来手法との違いがある。
D.3: Transformerの[class]トークンを利用し、画像表現を得た後にMLPによって分類を行う設計は、元々のテキスト用Transformerから継承されたものである。

③ 性能が向上した記載

D.1: ResNetに対してAdamで事前学習を行った方がSGDより多くのデータセットで性能が優れていた（表7参照）。
D.2: Transformerの深さをスケーリングすると、特に16層までは大幅に性能が向上した（図8参照）。
D.3: [class]トークンを用いた設計では、適切な学習率を選択することで、GAPを用いた場合よりも良い結果が得られた（図9参照）。

④ メカニズムの解明・なぜそうなるのか等の記載

D.1: Adamオプティマイザは、より高速に収束しやすく、特に異なるデータセットに対して汎用的に良い性能を発揮できるため、SGDよりも効果的であると考えられる。
D.2: Transformerの深さをスケーリングすることで、モデルがより複雑なパターンを捉える能力が向上するため、性能が向上すると考えられる。特に16層までの深さスケーリングが顕著に効果的であったが、それ以上では収穫逓減が生じた。
D.3: 学習率の違いが、[class]トークンを使うアプローチとGAPを使うアプローチの間での性能差を生むメカニズムとされている。

⑤ 具体的な処理方法の記載

D.1: ResNet（50x1, 152x2）の2つのモデルをAdamおよびSGDで事前学習し、その後、JFTデータセットを使用して転移学習を行った。SGDのハイパーパラメータにはKolesnikov et al. (2020)の推奨設定を使用した。結果は表7に示されている。
D.2: 8層、D=1024、D_MLP=2048、パッチサイズ32のViTモデルを基に、深さ、幅、パッチサイズをそれぞれスケーリングして5ショット性能を評価した。結果は図8に示されている。
D.3: 画像の[class]トークンをMLPで変換し、tanhを非線形関数とする1層の隠れ層を持つネットワークで分類を行った。また、GAPを用いた線形分類の代替案も試みたが、学習率の違いが性能差の要因であった（図9参照）。

⑥ 比較の記載
以下の表に、SGDとAdamの性能をまとめる。

Optimizer	モデル	データセット	性能（転移学習精度）
SGD	ResNet-50x1	JFT	表7参照
Adam	ResNet-50x1	JFT	表7参照
SGD	ResNet-152x2	JFT	表7参照
Adam	ResNet-152x2	JFT	表7参照

⑦ 上記⑥以外で表に出来そうな部分

Transformerの深さ、幅、パッチサイズをスケーリングした際の性能変化を表でまとめることが可能である（図8参照）。

⑧ 具体的な数値の記載

数値	説明
50x1	ResNetモデルのサイズ
152x2	ResNetモデルのサイズ
7 epochs	ResNetの事前学習に使用されたエポック数
8	Transformerモデルの層数
1024	TransformerモデルのD値
2048	TransformerモデルのD_MLP値
32	Transformerモデルのパッチサイズ

⑨ 具体的な変数名(symbol)の記載

変数名	説明
D	Transformerモデルの埋め込み次元数
D_MLP	TransformerのMLPブロック内の隠れ層の次元数

⑩ 図/表があれば、各図/表は何を主張するためのものか

表7: SGDとAdamを用いたResNetの事前学習による転移性能の比較を示しており、Adamがほとんどのデータセットで優れていることを主張している。
図8: Transformerの深さ、幅、パッチサイズをスケーリングした際の性能変化を示し、深さをスケーリングすることが最も有効であることを主張している。
図9: [class]トークンとGAPを用いたモデルの学習率の違いが性能に与える影響を示しており、学習率の調整が結果に大きく影響することを主張している。

D.4 POSITIONAL EMBEDDING

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) D.4 POSITIONAL EMBEDDING We ran ablations on different ways of encoding spatial information using positional embedding. We tried the following cases: • Providing no positional information: Considering the inputs as a bag of patches. • 1-dimensional positional embedding: Considering the inputs as a sequence of patches in the raster order (default across all other experiments in this paper). • 2-dimensional positional embedding: Considering the inputs as a grid of patches in two dimensions. In this case, two sets of embeddings are learned, each for one of the axes, X-embedding, and Y -embedding, each with size D/2. Then, based on the coordinate on the path in the input, we concatenate the X and Y embedding to get the final positional embedding for that patch. • Relative positional embeddings: Considering the relative distance between patches to en- code the spatial information as instead of their absolute position. To do so, we use 1- dimensional Relative Attention, in which we define the relative distance all possible pairs of patches. Thus, for every given pair (one as query, and the other as key/value in the at- tention mechanism), we have an offset pq − pk, where each offset is associated with an embedding. Then, we simply run extra attention, where we use the original query (the content of query), but use relative positional embeddings as keys. We then use the log- its from the relative attention as a bias term and add it to the logits of the main attention (content-based attention) before applying the softmax. In addition to different ways of encoding spatial information, we also tried different ways of in- corporating this information in our model. For the 1-dimensional and 2-dimensional positional embeddings, we tried three different cases: (1) add positional embeddings to the inputs right after the stem of them model and before feeding the inputs to the Transformer encoder (default across all other experiments in this paper); (2) learn and add positional embeddings to the inputs at the beginning of each layer; (3) add a learned positional embeddings to the inputs at the beginning of each layer (shared between layers). Table 8 summarizes the results from this ablation study on a ViT-B/16 model. As we can see, while there is a large gap between the performances of the model with no positional embedding and mod- els with positional embedding, there is little to no difference between different ways of encoding positional information. We speculate that since our Transformer encoder operates on patch-level inputs, as opposed to pixel-level, the differences in how to encode spatial information is less impor- tant. More precisely, in patch-level inputs, the spatial dimensions are much smaller than the original pixel-level inputs, e.g., 14 × 14 as opposed to 224 × 224, and learning to represent the spatial re- lations in this resolution is equally easy for these different positional encoding strategies. Even so, the specific pattern of position embedding similarity learned by the network depends on the training hyperparameters (Figure 10).

▼生成AIの回答(ChatGPT-4o)
① 何についての記載か? + 要旨は何?
D.4では、Transformerモデルにおける空間情報をエンコードするためのポジショナルエンコーディングの方法についてアブレーション実験を行い、どの方法が効果的かを分析している。

要旨

4種類のポジショナルエンコーディング（無情報、1次元、2次元、相対ポジショナルエンコーディング）を試した。
ポジショナルエンベディングの異なる適用方法（入力に追加するタイミング）も3種類比較した。
ポジショナルエンベディングを使用しない場合と使用した場合で性能に大きな差があったが、異なるポジショナルエンコーディング方法間ではほとんど差が見られなかった。
これは、Transformerがパッチレベルの入力で動作しているためであり、元のピクセルレベルの入力に比べて空間情報を学習するのが容易であるためと考えられる。

② 改良点・工夫点・テクニック等の記載

異なるポジショナルエンコーディング方式を比較することで、パッチレベルでの空間情報のエンコード方法を最適化する試みがなされている。特に、相対ポジショナルエンコーディングのような工夫が取り入れられている。

③ 性能が向上した記載

ポジショナルエンコーディングを使用しない場合と使用した場合の間には大きな性能差が見られたが、異なるエンコード方法間の性能差は小さい（表8参照）。

④ メカニズムの解明・なぜそうなるのか等の記載

パッチレベルの入力では、空間次元が元のピクセルレベルに比べてはるかに小さい（例：14×14対224×224）ため、どのポジショナルエンコーディング方法でも空間関係の学習は比較的容易であり、そのためにエンコード方法間で大きな差が生じないと考えられる。

⑤ 具体的な処理方法の記載

4つの異なるポジショナルエンコーディング方法を比較した。
1. ポジショナル情報を提供しない場合：パッチをバッグオブワードとして扱う。
2. 1次元ポジショナルエンコーディング：パッチをラスタ順に並べ、シーケンスとして扱う。
3. 2次元ポジショナルエンコーディング：パッチを2次元のグリッドとして扱い、X軸とY軸ごとにエンベディングを学習し、最終的にこれを結合してポジショナルエンコーディングを生成する。
4. 相対ポジショナルエンコーディング：パッチ間の相対距離を基に空間情報をエンコードし、Attentionメカニズムで使用する。
これらのポジショナルエンベディングは、3つの異なる方法でモデルに組み込まれた。
1. モデルのステム直後にポジショナルエンベディングを入力に追加する（デフォルト）。
2. 各層の初めにポジショナルエンベディングを学習して追加する。
3. 各層の初めにポジショナルエンベディングを追加するが、エンベディングは層間で共有される。

⑥ 比較の記載

ポジショナルエンベディング方式	エンコード方法	性能差
なし	パッチをバッグオブワードとして扱う	大きな性能差
1次元	ラスタ順に並べ、シーケンスとして扱う	小さな性能差
2次元	グリッドとしてX軸、Y軸エンベディングを学習	小さな性能差
相対	パッチ間の相対距離をエンコード	小さな性能差

⑦ 上記⑥以外で表に出来そうな部分

各ポジショナルエンコーディング方法を異なる方法でモデルに組み込む際の性能変化を表にまとめることが可能である（表8参照）。

⑧ 具体的な数値の記載

数値	説明
D/2	2次元ポジショナルエンコーディングにおけるX軸およびY軸エンベディングのサイズ
14×14	パッチレベルの入力の空間次元
224×224	ピクセルレベルの元の空間次元

⑨ 具体的な変数名(symbol)の記載

変数名	説明
pq - pk	Attentionメカニズムにおけるパッチ間の相対距離

⑩ 図/表があれば、各図/表は何を主張するためのものか

表8: 異なるポジショナルエンコーディング方法およびそれらの適用タイミングのアブレーション実験結果を示しており、ポジショナルエンベディングの有無による性能差を主張している。
図10: ポジショナルエンベディングの類似性パターンが、ネットワークの学習ハイパーパラメータによってどのように変化するかを示している。

D.5 EMPIRICAL COMPUTATIONAL COSTS

D.6 AXIAL ATTENTION

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) D.5 EMPIRICAL COMPUTATIONAL COSTS We are also interested in real-world speed of the architectures on our hardware, which is not always well predicted by theoretical FLOPs due to details like lane widths and cache sizes. For this purpose, we perform timing of inference speed for the main models of interest, on a TPUv3 accelerator; the difference between inference and backprop speed is a constant model-independent factor. Figure 12 (left) shows how many images one core can handle per second, across various input sizes. Every single point refers to the peak performance measured across a wide range of batch-sizes. As can be seen, the theoretical bi-quadratic scaling of ViT with image size only barely starts happening for the largest models at the largest resolutions. Another quantity of interest is the largest batch-size each model can fit onto a core, larger being better for scaling to large datasets. Figure 12 (right) shows this quantity for the same set of models. This shows that large ViT models have a clear advantage in terms of memory-efficiency over ResNet models. D.6 AXIAL ATTENTION Axial Attention (Huang et al., 2020; Ho et al., 2019) is a simple, yet effective technique to run self- attention on large inputs that are organized as multidimensional tensors. The general idea of axial attention is to perform multiple attention operations, each along a single axis of the input tensor, instead of applying 1-dimensional attention to the flattened version of the input. In axial attention, each attention mixes information along a particular axis, while keeping information along the other axes independent. Along this line, Wang et al. (2020b) proposed the AxialResNet model in which all the convolutions with kernel size 3 × 3 in a ResNet50 are replaced by axial self-attention, i.e. a row and column attention, augmented by relative positional encoding. We have implemented AxialResNet as a baseline model.3. Moreover, we have modified ViT to process inputs in the 2-dimensional shape, instead of a 1- dimensional sequence of patches, and incorporate Axial Transformer blocks, in which instead of a self-attention followed by an MLP, we have a a row-self-attention plus an MLP followed by a column-self-attention plus an MLP. Figure 13, present the performance of Axial ResNet, Axial-ViT-B/32 and Axial-ViT-B/16 on Ima- geNet 5shot linear, when pretrained on JFT dataset, verses the pretraining compute, both in terms of number of FLOPs and inference time (example per seconds). As we can see, both Axial-ViT-B/32 and Axial-ViT-B/16 do better than their ViT-B counterpart in terms of performance, but it comes at the cost of more compute. This is because in Axial-ViT models, each Transformer block with global self-attention is replaced by two Axial Transformer blocks, one with row and one with column self- attention and although the sequence length that self-attention operates on is smaller in axial case, there is a extra MLP per Axial-ViT block. For the AxialResNet, although it looks reasonable in terms of accuracy/compute trade-off (Figure 13, left), the naive implementation is extremely slow on TPUs (Figure 13, right).

▼生成AIの回答(ChatGPT-4o)
① 何についての記載か? + 要旨は何?
D.5では、実際のハードウェア上でのアーキテクチャの推論速度に関する経験的な計測結果を示している。
D.6では、Axial Attentionという手法とその適用例について説明している。

要旨

D.5: ハードウェア上でのViTモデルの推論速度とバッチサイズについて分析。ViTモデルはResNetモデルに対してメモリ効率の面で優れている。
D.6: Axial Attentionは、入力テンソルを複数の軸に分けてAttentionを行う手法であり、ViTとResNetに適用することで性能向上を図る。Axial-ViTはパフォーマンスが向上するが、計算コストが増加する。

② 改良点・工夫点・テクニック等の記載

D.5: FLOPsだけでなく、実際のハードウェアに基づく推論速度の測定を行う点で現実的な計測が行われている。
D.6: Axial Attentionを使用することで、入力を軸ごとに処理し、各軸ごとに独立した情報を保ちながらAttentionを適用する手法が提案されている。これにより、従来の1次元Attentionと比較して大規模な入力に対して効果的なAttentionが可能となる。

③ 性能が向上した記載

D.5: ViTモデルはResNetモデルと比較してメモリ効率に優れている（図12右）。
D.6: Axial-ViT-B/32およびAxial-ViT-B/16は、対応するViT-Bモデルよりも性能が向上しているが、計算コストが増加している（図13左）。

④ メカニズムの解明・なぜそうなるのか等の記載

D.5: ViTの理論的な二次式的スケーリングは、最大のモデルと解像度でのみ現れ始める。これは、ハードウェアのキャッシュサイズやレーン幅などの詳細がFLOPsと現実の推論速度の関係に影響するためである。
D.6: Axial Attentionは、各軸ごとに独立した情報を保ちながらAttentionを適用するため、従来の全体をフラットにするアプローチに比べて効率的である。しかし、Axial-ViTでは、各Transformerブロックが2つのAxial Transformerブロック（行と列のAttention）に置き換えられ、さらにMLPが追加されるため、計算コストが増加する。

⑤ 具体的な処理方法の記載

D.5: TPUv3アクセラレータ上で各モデルの推論速度を測定し、各解像度で1コアが処理できる画像数を計算。また、各モデルがコア上に適合する最大バッチサイズを比較。
D.6: Axial Attentionを用いて、行方向と列方向に別々にAttentionを行い、その後MLPを適用する。ViTでは、1次元シーケンスとしてパッチを処理する代わりに、2次元の入力として処理するように変更し、各TransformerブロックでAxial Transformerを使用。AxialResNetでは、ResNet50の全ての3×3の畳み込みをAxial Self-Attentionに置き換え、相対ポジショナルエンコーディングを加える。

⑥ 比較の記載

モデル	メモリ効率	推論速度	計算コスト	性能
ViT	高い	中	低い	中
ResNet	低い	高	低い	中
Axial-ViT-B/32	高い	中	高い	高い
Axial-ViT-B/16	高い	中	高い	高い
AxialResNet	中	低	中	中

⑦ 上記⑥以外で表に出来そうな部分

各モデルのバッチサイズと解像度による推論速度の比較結果（図12）。
Axial Attentionの適用方法と従来手法の処理フローを比較する表を作成可能。

⑧ 具体的な数値の記載

数値	説明
5-shot	ImageNetの5-shot学習による性能評価
32	Axial-ViT-B/32のパッチサイズ
16	Axial-ViT-B/16のパッチサイズ

⑨ 具体的な変数名(symbol)の記載

変数名	説明
FLOPs	計算コストの指標で、モデルの計算複雑度を示す
Example per seconds	推論時間の指標で、1秒あたりに処理できる画像数

⑩ 図/表があれば、各図/表は何を主張するためのものか

図12: 左は解像度ごとのViTの推論速度を示し、右は各モデルが扱える最大バッチサイズを比較。ViTモデルがResNetよりもメモリ効率に優れている点を強調している。
図13: 左はAxialResNet、Axial-ViT-B/32、Axial-ViT-B/16のFLOPsと推論時間に対する性能を示し、右はTPU上での計算コストを示している。Axial-ViTが性能向上を実現するが、計算コストが増加する点に注目している。

参考: Axial-Attention

D.7 ATTENTION DISTANCE

D.8 ATTENTION MAPS

D.9 OBJECTNET RESULTS

D.10 VTAB BREAKDOWN

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) D.7 ATTENTION DISTANCE To understand how ViT uses self-attention to integrate information across the image, we analyzed the average distance spanned by attention weights at different layers (Figure 11). This “attention distance” is analogous to receptive field size in CNNs. Average attention distance is highly variable across heads in lower layers, with some heads attending to much of the image, while others attend to small regions at or near the query location. As depth increases, attention distance increases for all heads. In the second half of the network, most heads attend widely across tokens. D.8 ATTENTION MAPS To compute maps of the attention from the output token to the input space (Figures 6 and 14), we used Attention Rollout (Abnar & Zuidema, 2020). Briefly, we averaged attention weights of ViT- L/16 across all heads and then recursively multiplied the weight matrices of all layers. This accounts for the mixing of attention across tokens through all layers. D.9 OBJECTNET RESULTS We also evaluate our flagship ViT-H/14 model on the ObjectNet benchmark following the evaluation setup in Kolesnikov et al. (2020), resulting in 82.1% top-5 accuracy and 61.7% top-1 accuracy. D.10 VTAB BREAKDOWN Table 9 shows the scores attained on each of the VTAB-1k tasks.

▼生成AIの回答(ChatGPT-4o)
① 何についての記載か? + 要旨は何?
D.7では、ViTモデルが自己注意をどのように利用して画像全体にわたる情報を統合するかを調査している。
D.8では、Attention Rolloutという手法を使用して、ViTモデルの出力トークンから入力空間への注意マップを計算する。
D.9では、ViT-H/14モデルをObjectNetベンチマークで評価し、精度結果を報告している。
D.10では、VTAB-1kタスクにおけるスコアの内訳を示している。

要旨

D.7: ViTモデルにおける注意距離（receptive field sizeに相当）の層ごとの変動と、ネットワークの深部で広範囲に注意が広がる様子を示している。
D.8: Attention Rolloutにより、ViT-L/16の全層の注意重みを考慮した注意マップを生成している。
D.9: ViT-H/14のObjectNetベンチマークでの精度結果を報告し、top-5 accuracyが82.1%、top-1 accuracyが61.7%である。
D.10: VTAB-1kタスクのスコアをタスクごとに示している。

② 改良点・工夫点・テクニック等の記載

D.7: 注意距離を定量化し、層ごとの自己注意の分布を分析することで、深層でより広範な注意がなされることを確認している点。
D.8: Attention Rollout技術を使用し、層ごとに注意重みを掛け合わせることで、トークン間の注意の混合を反映した注意マップを計算している点。

③ 性能が向上した記載

D.9: ObjectNetベンチマークでViT-H/14モデルが、top-5 accuracyで82.1%、top-1 accuracyで61.7%という高い精度を達成している（図なし）。

④ メカニズムの解明・なぜそうなるのか等の記載

D.7: 深層に進むにつれて、ViTの注意機構がより広範囲に情報を集約し、層の浅い部分では部分的な領域に集中するのに対し、層の深い部分では広範な領域にわたって注意が分散するためである。
D.8: Attention Rolloutは、各層の注意重みを累積的に計算し、全体の注意マップを生成するため、層ごとの注意の影響が反映されている。

⑤ 具体的な処理方法の記載

D.7: ViTモデルの各層で、自己注意の重みがどの範囲にわたって分布するか（注意距離）を測定し、深層になるほど注意範囲が広がる様子を解析。
D.8: ViT-L/16モデルの全ての注意ヘッドの重みを平均化し、Attention Rolloutを適用。すべての層の重み行列を再帰的に乗算することで、トークン間の注意の混合を考慮したマップを生成。

⑥ 比較の記載

セクション	手法	内容	特徴	効果
D.7	Attention distance	各層での注意範囲を測定	浅層:局所的, 深層:広範	情報の統合が層ごとに変化
D.8	Attention Rollout	全層の重みを考慮した注意マップ生成	トークン間の注意の混合を反映	注意の広がりを可視化
D.9	ObjectNet評価	ViT-H/14の精度評価	top-5: 82.1%, top-1: 61.7%	高精度モデルの実証
D.10	VTAB評価	VTAB-1kタスクの内訳スコア	各タスクの詳細なパフォーマンス	モデルの汎用性を示す

⑦ 上記⑥以外で表に出来そうな部分

D.9のObjectNetベンチマーク結果（top-5 accuracy, top-1 accuracy）を他のモデルと比較する表を作成できる。
D.10のVTAB-1kタスクのスコアをタスクごとに表でまとめることが可能。

⑧ 具体的な数値の記載

数値	説明
82.1%	ObjectNetベンチマークでのtop-5 accuracy
61.7%	ObjectNetベンチマークでのtop-1 accuracy

⑨ 具体的な変数名(symbol)の記載

変数名	説明
Attention distance	層ごとの自己注意がカバーする範囲
Attention Rollout	全層の注意重みを掛け合わせて生成される注意マップ

⑩ 図/表があれば、各図/表は何を主張するためのものか

図11: ViTの層ごとの注意距離を示し、深層に進むにつれて注意が広範にわたる様子を視覚的に表現している。
図6、図14: Attention Rolloutによる注意マップを示し、ViTの出力トークンが入力空間にどのように注意を分配するかを可視化している。

あとがき

所感

機械学習についてある程度知っていないと、生成AIに質問しても、その回答内容だけでは理解できないと思います。生成AIの回答は、論文の内容をあまり変えずに、要点をそのまま掻い摘んで回答するような形になっています。(良い意味で論文の要点をそのまま抜き出した形)

Vision Transformer (ViT)についての分かりやすい解説記事等を事前にチェックして、実際の処理方法や中核部分の内容をあらかじめ把握していると、理解しやすいと思います。生成AIは実際の細かい処理方法自体を分かりやすく説明してはくれない傾向があります。

分かったこと

分かったこと・注目した点を列挙すると:

ViTモデルのファインチューニングに関する内容:
他のデータセットに対するViTモデルのファインチューニングは、ヘッド部分（2つの線形層）を全て削除し、ゼロ初期化された単一の線形層に置き換えている。この方法が、単に最後の層を再初期化するよりも頑健であることが示されている。

学習率は、小規模なグリッドサーチを実行して最適な学習率を選定している。このサーチは、全体のトレーニングデータの一部（小さなサブセット、例: CIFAR: トレーニングセットの2%）を開発セットとして使用し、最適な学習率を選ぶ。

「スイープ（sweep）」とは、機械学習のトレーニングやファインチューニングにおいて、特定のハイパーパラメータ（例: 学習率、バッチサイズ、重み減衰など）を複数の異なる値で試し、それぞれの設定に対するモデルの性能を評価するプロセスを指す。

自己教師あり学習（Self-supervision）の実験に関する内容:
マスクされたパッチ予測を使用した自己教師あり学習の実験。パッチ埋め込みの50%をマスクし、その予測を行う方法。マスクされたパッチ予測における50%の腐敗率が最適。
3つの異なる予測ターゲット設定（3-bitの平均色（全512色）予測、ダウンサイジングされたパッチ予測、L2回帰）を試し、その中で平均色予測が最も効果的であった。
1Mステップ（約14エポック）、バッチサイズ4096でJFTデータセットを使用してトレーニング。100kステップの事前学習後には性能向上の限界に達し、より多くの学習はほとんど効果を示さなかった。

Transformerアーキテクチャの異なるパラメータ（深さ、幅、パッチサイズ）をスケーリングした際の性能変化について、深さをスケーリングすることで最も大きな性能向上が得られることがわかった。深さをスケーリングすることで、モデルがより複雑なパターンを捉える能力が向上するため、性能が向上すると考えられる。特に16層までの深さスケーリングが顕著に効果的であったが、それ以上では収穫逓減が生じた。

異なるポジショナルエンコーディング方式を比較:
ポジショナルエンベディングを使用しない場合と使用した場合で性能に大きな差があったが、異なるポジショナルエンコーディング方法間ではほとんど差が見られなかった。
パッチレベルの入力では、空間次元が元のピクセルレベルに比べてはるかに小さい（例：14×14対224×224）ため、どのポジショナルエンコーディング方法でも空間関係の学習は比較的容易であり、そのためにエンコード方法間で大きな差が生じないと考えられる。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up