生成AIを用いてConv vs ViTの論文「ConvNets Match Vision Transformers at Scale (2023)」を読んでみた

Posted at 2024-09-30

はじめに

生成AIを用いてConv vs ViTの論文「ConvNets Match Vision Transformers at Scale (2023)」の内容を(なるべく)把握してみました。(生成AIが)論文の記載内容を始めから最後まで読んで、実際にどのような記載があるのかを把握します。

(論文の分かりやすい解説記事は見るのですが、実際の論文までチェックしないので、生成AIを使って内容を把握してみました。)

モデル性能を左右する主要因として計算リソースとデータの量を挙げており、これが成功の決定的要素であると結論付けていることが分かりました。また、ViTsがコンピュータビジョンで成功しているものの、同等リソースで公正に評価すれば事前学習済みのConvNetsがViTsより劣るという強力な証拠はないということが分かりました。(その他、末尾の「分かったこと」章を参照)

以降で、ChatGPTに聞いてみた例を記載します。

他例: 同類の方法を使って読んでみた結果

対象の論文

論文: (Conv vs ViTに関する論文)

[2310.16764] ConvNets Match Vision Transformers at Scale
https://arxiv.org/abs/2310.16764
(PDF: https://arxiv.org/pdf/2310.16764)

質問時の各章節の区切り部分

論文の中にある各章節を、下記のように区切って、部分毎に生成AIに内容を質問していきます。

Abstract
---
Introduction
---
Pre-trained NFNets obey scaling laws
---
Fine-tuned NFNets are competitive
---
Discussion

生成AIへの質問方法

生成AIを活用して、知りたい記事・論文の1節分(適度な長さ)のテキストをコピー＆ペーストして、その下に質問内容を「①～ ②～ …」と番号付きで書いて、生成AIに渡せば、全質問に一発で的確に回答してくれるので、非常に良好でした。記事全体を読む必要なく、知りたい点の情報だけを収集できます。

生成AIへの質問例:

(論文・記事の各章節を貼り付け)

上記の内容に関して下記の質問に回答下さい: (である調で記載、質問に対して該当するものが無ければ無しと記載)
①何についての記載か? + 要旨は何? (要旨は箇条書きで記載、既存手法があれば引用元を記載)
②具体的な処理方法の記載があれば説明下さい。(簡略化せずに全て記載、既存手法があれば引用元を記載)
③改良点・工夫点・テクニック等の記載があれば説明下さい。
④メカニズムの解明・なぜそうなるのか等の記載があれば説明下さい。
⑤性能が向上した記載があれば説明下さい。(具体値があれば記載、対応する図/表番号があれば各文末に記載)

続けて下記の質問に追加で回答下さい:
⑥比較の記載があれば違いを表でまとめて下さい。(下に解説を記載、対応する図/表番号があれば明記)
⑦上記⑥以外で表に出来そうな部分があれば表でまとめて下さい。(下に解説を記載、対応する図/表番号があれば記載)
⑧具体的な数値の記載を全て列挙して、表にまとめて下さい。(必ず正しく数値を抜き取る事、|数値|説明|の表へ)
⑨具体的な変数名(数式用の記号)の記載を全て列挙して、表にまとめて下さい。(|変数名|説明|の表へ)
⑩図/表があれば、各図/表は何を主張するためのものかを説明下さい。(掲載理由・注目ポイント等)

※回答が長くなりそうな場合は、適宜、分けて質問: ①②③④⑤、⑥⑦⑧⑨⑩
※章節に応じて、その章節で明らかに不要な質問は、適宜除外。
※その他、不明点があれば、適宜、追加で質問。

質問内容は、記事・論文を読んでいていつも知りたいと思う点(改良点・工夫点・テクニック・メカニズムの解明)にしています。また、表で比較した方が素早く把握できるので、可能であれば記事を表に変換するようにしています。

論文・記事を貼り付けるテキストの長さは、1節分程度の量にとどめた方が、良い回答が得られました。生成AIの回答の文量が多くなってくると、回答が長くなり過ぎないように、生成AIが勝手に(適度に)端折り始めてしまい、重要な点が回答から抜けてしまう可能性が高くなります。

事前知識

機械学習についてある程度知っていないと、生成AIに質問しても、その回答内容だけでは理解できないと思います。生成AIの回答は、論文の内容をあまり変えずに、要点をそのまま掻い摘んで回答するような形になっています。

注意点

論文のテキスト内容だけを貼り付けて、生成AIに質問しています。論文の中の図・表の部分は貼り付けていません。図・表の内容は生成AIの回答には含まれず、別途論文を見る必要があります。

以降で、生成AIの回答内容が読みにくい・分かりづらい場合は、論文の本文でも同じように書かれてあり、論文の本文を読んでも同じように分かりづらいことが多くあります。論文では、既存研究等があるため、多くの説明を省略・一言だけサラッと書かれてある等、同種の研究に取り組む人でなければ、なかなか全容の理解に辿りつくのは難しい側面があります。この点は、生成AIの回答性能が悪いのではなく、論文という性質上、生じるものと考えています。

生成AIに質問

以降で、ChatGPTに実際に聞いてみた例を記載します。

生成AIへの質問＆回答の全容

生成AIへの質問＆回答の全容・詳細:

Abstract

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) Many researchers believe that ConvNets perform well on small or moderately sized datasets, but are not competitive with Vision Transformers when given access to datasets on the web-scale. We challenge this belief by evaluating a performant ConvNet architecture pre-trained on JFT-4B, a large labelled dataset of images often used for training foundation models. We consider pre-training compute budgets between 0.4k and 110k TPU-v4 core compute hours, and train a series of networks of increasing depth and width from the NFNet model family. We observe a log-log scaling law between held out loss and compute budget. After fine-tuning on ImageNet, NFNets match the reported performance of Vision Transformers with comparable compute budgets. Our strongest fine-tuned model achieves a Top-1 accuracy of 90.4%.

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?
この部分では、ConvNetとVision Transformers（ViTs）の性能比較について記載されており、特に大規模データセットを使用した場合のConvNetの性能に焦点を当てている。具体的には、JFT-4Bという大規模なラベル付きデータセットを使用したNFNetアーキテクチャの性能を評価している。
要旨:

ConvNetが小規模または中規模のデータセットにおいては優れた性能を示すが、ウェブスケールのデータセットではVision Transformersほど競争力がないという一般的な信念に挑戦している。
JFT-4Bという大規模なデータセットを使用し、NFNetアーキテクチャを異なる計算予算でトレーニング。
0.4kから110k TPU-v4コアの計算予算を考慮し、深さと幅を増やしたネットワークをトレーニング。
トレーニング時間と損失の間に対数スケーリング則を観察。
ImageNetでのファインチューニング後、NFNetsは同等の計算予算でVision Transformersに匹敵する性能を達成。
最も強力なモデルでは、Top-1精度90.4%を達成。

②具体的な処理方法の記載

ConvNetアーキテクチャとしてNFNetファミリーを使用している。NFNetは、Batch Normalizationを使用しないことで計算の安定性を向上させ、モデルのスケーラビリティを高めたアーキテクチャである。
トレーニングには、JFT-4Bという大規模なラベル付き画像データセットを使用。これは、しばしばファウンデーションモデルのトレーニングに用いられる。
計算予算としては、0.4kから110kのTPU-v4コア時間を使用。これはトレーニングに使用する計算リソースの尺度であり、トレーニングのスケールを示している。
トレーニングされたモデルは、ImageNetデータセットに対してファインチューニングされ、精度が測定された。

③改良点・工夫点・テクニック等の記載

計算予算に基づき、NFNetの深さと幅を調整し、異なるモデルを作成している。これにより、計算リソースの効果的な利用とモデルの性能最適化が図られている。
計算予算と損失の間に対数スケーリング則が見られるという観察に基づき、効率的なモデル学習が可能になっている。
NFNetは、Vision Transformersに匹敵する性能を持ちながら、ConvNetアーキテクチャの優れた計算効率を活かしている。

④メカニズムの解明・なぜそうなるのか等の記載

トレーニング時間と損失の間に見られる対数スケーリング則は、計算リソースが増加するにつれて、モデルの性能が予測可能に向上することを示している。これは、計算リソースを増やすことでより高度なモデルが学習されることを意味している。
NFNetアーキテクチャの特性として、Batch Normalizationを排除し、より大規模なモデルを安定して学習できるように設計されているため、大規模データセット上でも性能が向上している。

⑤性能が向上した記載

最も強力なモデルは、ImageNetに対してファインチューニングされ、Top-1精度90.4%を達成している。この結果は、Vision Transformersの報告された性能に匹敵するものである。
計算予算と損失の間に対数スケーリング則が見られ、計算リソースの増加に伴い、持続的な性能向上が確認されている (図や表に関する具体的な番号の記載は無し)。

▼質問(人間)
一般的なNFNetについて説明下さい。

▼生成AIの回答(ChatGPT-4o)
NFNet (Normalizer-Free Network) は、通常の畳み込みニューラルネットワーク (ConvNet) の一種であり、特に大規模なモデルのトレーニングにおいて優れた性能と安定性を発揮することを目的として設計されたアーキテクチャである。NFNetの特徴は、通常のConvNetで広く使用されている Batch Normalization (バッチ正規化) を排除し、それを補う新しい手法を導入している点にある。

一般的なNFNetの特徴は以下の通りである。

Batch Normalizationの排除
多くの現代的なディープラーニングモデルでは、学習の安定性と効率性を向上させるためにBatch Normalizationが使われている。しかし、Batch Normalizationは計算コストが高く、特に大規模なデータセットや大規模なモデルで問題となることがある。NFNetではBatch Normalizationを使用せずに、同等の学習の安定性を実現している。
Adaptive Gradient Clipping (AGC)
NFNetは、勾配の大きさを動的にクリッピングする Adaptive Gradient Clipping (AGC) という手法を導入している。AGCは、勾配爆発の問題を防ぐために、勾配の大きさをモデルのパラメータの大きさに応じてスケールすることで、学習の安定性を保っている。これにより、Batch Normalizationなしでも安定した学習が可能となっている。
ResNetベースのアーキテクチャ
NFNetはResNetに類似したアーキテクチャを基にしており、残差ブロックを活用している。これは、非常に深いネットワークでも勾配消失問題を回避し、効率的な学習を可能にする。
高速な学習と優れたスケーラビリティ
NFNetはBatch Normalizationを排除することで、計算リソースの消費を削減し、より大規模なモデルをより高速に学習できるよう設計されている。また、他の大規模モデルと比較して、少ないリソースで同等の性能を発揮することが報告されている。
高い性能
ImageNetなどのベンチマークにおいて、NFNetは従来のConvNetアーキテクチャを上回る性能を示している。また、Vision Transformersに匹敵する性能を持ちながら、ConvNet特有の計算効率の良さも兼ね備えている。

NFNetは、特に大規模データセットや高性能が求められる場面で、他の一般的な畳み込みネットワークに比べて優れた選択肢とされている。

Introduction

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) Introduction Convolutional Neural Networks (ConvNets) were responsible for many of the early successes of deep learning. Deep ConvNets were first de- ployed commercially over 20 years ago (Le- Cun et al., 1998), while the success of AlexNet on the ImageNet challenge in 2012 re-ignited widespread interest in the field (Krizhevsky et al., 2017). For almost a decade ConvNets (typically ResNets (He et al., 2016a,b)) dominated com- puter vision benchmarks. However in recent years they have increasingly been replaced by Vision Transformers (ViTs) (Dosovitskiy et al., 2020). Simultaneously, the computer vision commu- nity has shifted from primarily evaluating the performance of randomly initialized networks on specific datasets like ImageNet, to evaluat- ing the performance of networks pre-trained on large general purpose datasets collected from the web. This raises an important question; do Vision Transformers outperform ConvNet architectures pre-trained with similar computational budgets? Although most researchers in the community believe Vision Transformers show better scaling properties than ConvNets, there is surprisingly little evidence to support this claim. Many papers studying ViTs compare to weak ConvNet base- lines (typically the original ResNet architecture (He et al., 2016a)). Additionally, the strongest ViT models have been pre-trained using large com- pute budgets beyond 500k TPU-v3 core hours (Zhai et al., 2022), which significantly exceeds the compute used to pre-train ConvNets. We evaluate the scaling properties of the NFNet model family (Brock et al., 2021), a pure con- volutional architecture published concurrently with the first ViT papers, and the last ConvNet to set a new SOTA on ImageNet. We do not make any changes to the model architecture or the training procedure (beyond tuning simple hyper-parameters such as the learning rate or epoch budget). We consider compute budgets up to a maximum of 110k TPU-v4 core hours,1 and pre-train on the JFT-4B dataset which con- tains roughly 4 billion labelled images from 30k classes (Sun et al., 2017). We observe a log-log scaling law between validation loss and the com- pute budget used to pre-train the model. After fine-tuning on ImageNet, our networks match the performance of pre-trained ViTs with comparable compute budgets (Alabdulmohsin et al., 2023; Zhai et al., 2022), as shown in Figure 1.

上記の内容に関して下記の質問に回答下さい: (である調で記載、質問に対して該当するものが無ければ無しと記載)
①何についての記載か? + 要旨は何? (要旨は箇条書きで記載、既存手法があれば引用元を記載)
②具体的な処理方法の記載があれば説明下さい。(簡略化せずに全て記載、既存手法があれば引用元を記載)
③改良点・工夫点・テクニック等の記載があれば説明下さい。
④メカニズムの解明・なぜそうなるのか等の記載があれば説明下さい。
⑤性能が向上した記載があれば説明下さい。(具体値があれば記載、対応する図/表番号があれば各文末に記載)
⑩図/表があれば、各図/表は何を主張するためのものかを説明下さい。(掲載理由・注目ポイント等)
⑪関連研究の参照番号を全て列挙して、表にまとめて下さい。(元文にある内容のみ記載・類推して付け足しは不要、|参照番号|概要説明|の表へ、関連するもの同士でまとめて並べ替え)

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?

この部分では、Convolutional Neural Networks (ConvNets) と Vision Transformers (ViTs) の性能の違いや、特に大規模データセットを用いたトレーニングでの比較が記載されている。特に、ConvNets（NFNet）のスケーリング特性を評価し、ViTsと比較するためにJFT-4Bのデータセットを使った実験が紹介されている。

ConvNetsは深層学習の初期の成功をもたらしたが、近年はViTsに取って代わられつつある (LeCun et al., 1998; Krizhevsky et al., 2017)。
Vision TransformersがConvNetsより優れたスケーリング特性を持つと広く信じられているが、証拠は少ない。
多くの研究では、弱いConvNetベースラインとViTsが比較されている。
最も強力なViTモデルは、ConvNetsよりも大きな計算リソースを使用してトレーニングされている (Zhai et al., 2022)。
本研究では、NFNetアーキテクチャを用い、JFT-4Bデータセット（約40億枚のラベル付き画像）での事前学習を行い、計算リソースの範囲内でViTと比較。
学習中の損失と計算予算の間に、log-logスケーリング法則を観察した。
ImageNetでのファインチューニング後、NFNetは同等の計算予算でViTと同等の性能を示した (Alabdulmohsin et al., 2023; Zhai et al., 2022)。

②具体的な処理方法の記載

本研究では、NFNetモデルをJFT-4Bデータセット（約40億のラベル付き画像、30kクラス）を用いて事前学習した。
訓練に使用した計算リソースの範囲は最大で110k TPU-v4 core hoursまで。
モデルのアーキテクチャやトレーニングプロシージャには大きな変更を加えていないが、学習率やエポック数といった基本的なハイパーパラメータは調整している。

③改良点・工夫点・テクニック等の記載

モデルアーキテクチャの変更を行わず、基本的なハイパーパラメータ（学習率やエポック数など）のみを調整することで、効率的なトレーニングを実施した。
学習率や計算リソースのスケーリングに関してlog-logスケーリング法則を利用し、学習の安定性と性能の向上を図った。

④メカニズムの解明・なぜそうなるのか等の記載

ConvNetのスケーリング特性に関するlog-logスケーリング法則が観察された。この法則により、計算リソースが増加すると、検証損失が減少することが示された。

⑤性能が向上した記載

NFNetは、ImageNetのファインチューニング後、同等の計算リソースでVision Transformersと同等の性能を示した。
具体的には、NFNetは他の強力なViTモデルと比較しても優れた性能を持ち、計算リソースにおいても効果的であった (Figure 1)。

⑩図/表があれば、各図/表は何を主張するためのものかを説明

Figure 1: NFNetの学習損失と計算予算のlog-logスケーリングの関係を示しており、より多くの計算リソースを投入することで損失が減少する様子を視覚的に示している。さらに、同じ計算予算の下で、NFNetがViTと同等の性能を発揮することを強調している。

⑪関連研究の参照番号

参照番号	概要説明
LeCun et al., 1998	ConvNetsが初めて商業利用された研究。
Krizhevsky et al., 2017	AlexNetがImageNetチャレンジで成功を収め、深層学習の再燃を引き起こした研究。
He et al., 2016a	ResNetの元祖となる研究。
He et al., 2016b	ResNetの改良版に関する研究。
Dosovitskiy et al., 2020	Vision Transformers (ViT) の初期研究。
Zhai et al., 2022	ViTの大規模モデルのスケーリングとその計算予算に関する研究。
Alabdulmohsin et al., 2023	NFNetとViTを比較した最新の研究。

「⑪関連研究の参照番号」の表が、非常に分かりやすい。良好。

Pre-trained NFNets obey scaling laws

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) Pre-trained NFNets obey scaling laws We train a range of NFNet models of varying depth and width on JFT-4B. Each model is trained for a range of epoch budgets between 0.25 and 8, using a cosine decay learning rate schedule. The base learning rate is tuned separately for each epoch budget on a small logarithmic grid. In Figure 2, we provide the validation loss at the end of training on a held out set of 130k images, plotted against the compute budget required to train each model2. We note that F7 has the same width as F3, but is double the depth. Similarly F3 is double the depth of F1, and F1 is double the depth of F0. F3+ and F7+ have the same depths as F3 and F7 but larger width. We train us- ing SGD with Momentum and Adaptive Gradient Clipping (AGC) at batch size 4096, and we use an image resolution of 224×224 during training and 256 × 256 at evaluation. For additional details describing the NFNet architecture and training pipeline we refer the reader to the original paper (Brock et al., 2021), including the pre-training framework for JFT described in Section 6.2. Note that we removed near-duplicates of images in the training and validation sets of ImageNet from JFT-4B before training (Kolesnikov et al., 2020). Figure 2 shows a clear linear trend, consistent with a log-log scaling law between validation loss and pre-training compute. This matches the log- log scaling laws previously observed when per- forming language modelling with transformers (Brown et al., 2020; Hoffmann et al., 2022). The optimal model size and the optimal epoch budget (which achieve the lowest validation loss) both increase in size as the compute budget in- creases. We found that a reliable rule of thumb is to scale the model size and the number of train- ing epochs at the same rate, as previously ob- served for language modelling by Hoffmann et al. (2022). We note that the optimal epoch budget was greater than 1 for overall compute budgets greater than roughly 5k TPU-v4 core hours. In Figure 3 we plot the observed optimal learn- ing rate (which minimizes validation loss), for 3 of our models, across a range of epoch budgets.3 Note that we tuned the learning rate on a loga- rithmic grid spaced by factors of 2. We find that all models in the NFNet family show a similar optimal learning rate 𝛼 ≈ 1.6 for small epoch budgets. However the optimal learning rate falls as the epoch budget rises, and for large models the optimal learning rate falls more quickly. In practice one can efficiently tune the learning rate within 2 trials by assuming that the optimal learn- ing rate falls slowly but monotonically as both the model size and the epoch budget increases. Finally, we note that some pre-trained models in Figure 2 perform less well than expected. For example, the curve for NFNet-F7+ models at dif- ferent pre-training budgets is not smooth. We be- lieve this arises because our data loading pipeline did not guarantee that each training example would be sampled once per epoch if the training run was pre-empted/restarted, potentially caus- ing some training examples to be under-sampled if a training run was restarted multiple times.

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?

この章では、事前学習したNFNetモデルがスケーリング法則に従うことを示し、計算予算とモデル性能の関係を分析している。特に、モデルの深さや幅を変えて異なる計算予算で学習したNFNetファミリーの性能を評価している。

NFNetのモデルを異なる深さと幅でトレーニングし、計算予算と検証損失のlog-logスケーリング法則を観察した。
計算予算が増加するにつれて、最適なモデルサイズやエポック数も増加する。
小さなエポック数では最適な学習率が1.6に近いが、エポック数が増加するにつれて学習率は低下する。
NFNet-F7+など一部のモデルは、期待される性能を下回ったが、これはデータローディングパイプラインの問題によるものと考えられる。

②具体的な処理方法の記載

JFT-4Bデータセットを使用し、異なる深さ（F0, F1, F3, F7）と幅（F3+, F7+）を持つNFNetモデルをトレーニングした。
学習にはSGD with MomentumとAdaptive Gradient Clipping (AGC) を使用し、バッチサイズは4096であった。
トレーニング時の画像解像度は224×224、評価時は256×256。
コサイン減衰学習率スケジュールを使用し、各エポック予算に対して学習率をログスケールのグリッドでチューニングした。
事前学習に使った計算予算は0.25エポックから8エポックまでの範囲で、最大110k TPU-v4 core hoursの計算リソースを使用した。

③改良点・工夫点・テクニック等の記載

最適な学習率はエポック数が増えるにつれて低下することを観察し、学習率のチューニングを効率化した。具体的には、モデルサイズとエポック数が増加すると学習率が単調に減少することを利用し、2回の試行で最適な学習率を見つけられるようにした。
トレーニング中のデータローディングパイプラインの問題を軽減するために、サンプリングの均一性に注意を払った。

④メカニズムの解明・なぜそうなるのか等の記載

計算予算と検証損失の間にlog-logスケーリング法則が見られた。これは、Brown et al. (2020) や Hoffmann et al. (2022) で言及されている言語モデルのスケーリング法則と一致している。
学習率がエポック数の増加とともに低下するのは、大きなモデルでは過剰な学習率が損失を悪化させるためである。

⑤性能が向上した記載

検証損失と計算予算にlog-logスケーリングの線形関係が確認されており、特定の計算予算に対して最適なモデルサイズとエポック予算が増加することが示された。
一部のNFNet-F7+モデルはデータローディングパイプラインの問題で期待される性能を下回ったが、それ以外のモデルでは計算予算に応じて性能が向上したことが確認された (Figure 2)。

【Figure 2】: NFNetの検証損失と計算予算の関係を示しており、log-logスケーリングに基づいて計算予算が増加することで性能が向上する傾向が示されている。

【Figure 3】: エポック数に応じた最適な学習率の変化を示しており、エポック数が増加するにつれて学習率が低下することが視覚化されている。

▼質問(人間)
続けて下記の質問に追加で回答下さい:
⑥比較の記載があれば違いを表でまとめて下さい。(下に解説を記載、対応する図/表番号があれば明記)
⑦上記⑥以外で表に出来そうな部分があれば表でまとめて下さい。(下に解説を記載、対応する図/表番号があれば記載)
⑧具体的な数値の記載を全て列挙して、表にまとめて下さい。(必ず正しく数値を抜き取る事、|数値|説明|の表へ)
⑨具体的な変数名(数式用の記号)の記載を全て列挙して、表にまとめて下さい。(|変数名|説明|の表へ)
⑩図/表があれば、各図/表は何を主張するためのものかを説明下さい。(掲載理由・注目ポイント等)

▼生成AIの回答(ChatGPT-4o)
⑥比較の記載

モデル	深さ	幅	画像解像度 (トレーニング)	画像解像度 (評価)	学習率	バッチサイズ	トレーニング予算 (TPU-v4 core hours)
NFNet-F0	基準	基準	224×224	256×256	最適値: 1.6	4096	0.25~8エポック
NFNet-F1	2倍 (F0の2倍)	同じ	同じ	同じ	最適値: 1.6 (小エポック)	同じ	~
NFNet-F3	2倍 (F1の2倍)	同じ	同じ	同じ	1.6 -> 減少	同じ	5k TPU-v4以上で最適化
NFNet-F7	2倍 (F3の2倍)	同じ	同じ	同じ	1.6 -> 減少	同じ	最大 110k TPU-v4
NFNet-F3+	同じ	大きい	同じ	同じ	1.6 -> 減少	同じ	~
NFNet-F7+	同じ	大きい	同じ	同じ	1.6 -> 減少	同じ	~

解説

モデルの深さが倍増すると、計算リソースとエポック予算も増加し、スケーリング法則に従う形で検証損失が低下する。
NFNet-F7+は幅が広くなっているが、データローディングパイプラインの問題により、期待される結果を出せなかったことが報告されている。
F3とF7+は同じ深さだが、幅の違いによる性能差が確認されている。

⑦上記⑥以外で表に出来そうな部分

モデル	検証損失	最適エポック数	最適学習率 (初期)	最適学習率 (大エポック)
NFNet-F0	線形 (log-logスケーリング)	~	1.6	低下
NFNet-F1	線形 (log-logスケーリング)	1~	1.6	低下
NFNet-F3	線形 (log-logスケーリング)	1+	1.6 -> 減少	低下
NFNet-F7	線形 (log-logスケーリング)	1+	1.6 -> 減少	低下
NFNet-F3+	線形 (log-logスケーリング)	~	1.6 -> 減少	低下
NFNet-F7+	乱れ (期待外れの結果)	~	1.6 -> 減少	低下

解説

各モデルで観察された検証損失の傾向と、最適エポック数、最適学習率の変化に基づく表である。
学習率はエポック数が増加するにつれて低下し、大規模なモデルほどその減少が顕著である。

⑧具体的な数値

数値	説明
0.25~8 エポック	使用したトレーニングエポック数の範囲
1.6	小エポックでの最適学習率
4096	バッチサイズ
224×224	トレーニング時の画像解像度
256×256	評価時の画像解像度
最大 110k TPU-v4 core hours	計算リソースの最大値
130k 画像	検証セットのサイズ

⑨具体的な変数名

変数名	説明
𝛼	学習率
F0, F1, F3, F7	NFNetの異なるモデル
TPU-v4 core hours	計算予算を示す単位
130k 画像	検証用の画像数
4096	バッチサイズ

⑩図/表の説明

Figure 2: 検証損失と計算予算のlog-logスケーリング関係を示す図で、計算予算が増加するにつれて検証損失が線形に減少することが示されている。特に、F3やF7などの深いモデルが大きな計算予算で良好な結果を示す。
Figure 3: エポック数に応じた最適な学習率の変化を示しており、エポック数が増えるにつれて学習率が減少することが視覚化されている。

ラベルなしJFT-3Bデータセットを用いたPre-trainingの方法は、(Brock et al., 2021)に記載がある模様。

▼質問(人間)
上記の「データローディングパイプラインの問題」について具体的な記載があるか?

▼生成AIの回答(ChatGPT-4o)
「データローディングパイプラインの問題」については、具体的に以下の記載がある。

一部のモデル（特にNFNet-F7+）において、期待されるパフォーマンスが得られなかった原因として、データローディングパイプラインの問題が指摘されている。
特に、トレーニングが中断されたり再開された場合、各エポックで各トレーニング例が1度はサンプリングされる保証がないことが原因であると述べられている。このため、トレーニング例が不十分にサンプリングされることが起こり、結果として一部のトレーニング例が過小サンプリングされる可能性があると記載されている。

従って、データローディングパイプラインの具体的な問題は、トレーニングの中断や再開によって一部のトレーニング例が適切にサンプリングされない点である。

ピンポイントで質問すると、良好な回答。

Fine-tuned NFNets are competitive

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) Fine-tuned NFNets are competitive with Vision Transformers on ImageNet In Figure 1, we fine-tune our pre-trained NFNets on ImageNet, and plot the Top-1 error against the compute used during pre-training. We fine- tune each model for 50 epochs using sharpness aware minimization (SAM) (Foret et al., 2020) with stochastic depth and dropout. We train at resolution 384 × 384 and evaluate at 480 × 480. The ImageNet Top-1 accuracy consistently im- proves as the compute budget increases. Our most expensive pre-trained model, an NFNet-F7+ pre- trained for 8 epochs, achieves an ImageNet Top-1 accuracy of 90.3% while requiring roughly 110k TPU-v4 core hours to pre-train and 1.6k TPU-v4 core hours to fine-tune. Furthermore, we achieve 90.4% Top-1 accuracy if we additionally intro- duce repeated augmentation during fine-tuning (Fort et al., 2021; Hoffer et al., 2019) with aug- mentation multiplicity 4.4 For comparison, the best reported Top-1 accuracy of an NFNet on Im- ageNet without extra data is 86.8% (Fort et al., 2021), achieved by an NFNet-F5 with repeated augmentation. This demonstrates that NFNets benefit substantially from large scale pre-training. Despite the substantial differences between the two model architectures, the performance of pre-trained NFNets at scale is remarkably similar to the performance of pre-trained Vision Trans- formers. For example, Zhai et al. (2022) achieve 90.2% Top-1 on ImageNet with a ViT-g/14, af- ter pre-training on JFT-3B for 210k TPU-v3 core hours, and 90.45% with a ViT-G/14 after pre- training on JFT-3B for over 500k TPU-v3 core hours. In a recent work, Alabdulmohsin et al. (2023) optimize the ViT architecture and achieve 90.3% Top-1 with a SoViT-400m/14 after pre- training on JFT-3B for 230k TPU-v3 hours. We evaluated the pre-training speed for these models on TPU-v4 (using the original authors’ codebase), and estimate that ViT-g/14 would take 120k TPU-v4 core hours to pre-train, while ViT- G/14 would take 280k TPU-v4 core hours and SoViT-400m/14 would take 130k TPU-v4 core hours. We use these estimates to compare the pre- training efficiency of ViTs and NFNets in Figure 1. We note however that NFNets were optimized for TPU-v4, and perform less well when evaluated on other devices. For example, we estimate that NFNet-F7+ would require 250 TPU-v3 core hours to pre-train for 8 epochs in our codebase. Finally, we note that the pre-trained check- points achieving the lowest validation loss on JFT-4B did not always achieve the highest Top-1 accuracy on ImageNet after fine-tuning. In par- ticular, we found that, under a fixed pre-training compute budget, the fine-tuning regime consis- tently favoured slightly larger models and slightly smaller epoch budgets. Intuitively, larger models have more capacity and are therefore better able to adapt to the new task. In some cases, slightly larger learning rates (during pre-training) also achieved better performance after fine-tuning.

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?

何についての記載か: Pre-trained NFNetモデルのImageNetにおける性能とVision Transformer (ViT)との比較。
要旨:
- Pre-trained NFNetをImageNetでファインチューニングした結果、計算リソースに応じてTop-1精度が向上することを示している。
- NFNet-F7+モデルを8エポックの事前学習と50エポックのファインチューニングで、90.3%のImageNet Top-1精度を達成した。
- 繰り返しデータ増強を用いた場合には、精度が90.4%に向上した。
- Vision Transformersとの比較では、ViT-g/14やViT-G/14と同等の精度を達成しつつ、計算効率ではTPU-v4上で競争力があることが示されている。
- ただし、NFNetsは他のデバイスでは性能が劣る可能性がある。

②具体的な処理方法の記載

NFNetモデルを事前学習し、その後ImageNet上でファインチューニングを行う。
- ファインチューニングでは、Sharpness-Aware Minimization (SAM)【Foret et al., 2020】、Stochastic Depth、およびDropoutを使用。
- トレーニング解像度は384×384、評価解像度は480×480。
- 繰り返しデータ増強を行う際には、増強の多重度を4と設定している【Fort et al., 2021; Hoffer et al., 2019】。

③改良点・工夫点・テクニック等

Sharpness-Aware Minimization (SAM)【Foret et al., 2020】を利用することで、トレーニングにおけるパラメータ更新時の急峻な変化を抑え、性能を向上させている。
Stochastic DepthとDropoutを併用して、モデルの過学習を防ぎ、より汎化性能を高めている。
繰り返しデータ増強【Fort et al., 2021; Hoffer et al., 2019】を用いることで、90.3%から90.4%への精度向上を達成している。

④メカニズムの解明・なぜそうなるのか

SAMは、学習時にモデルの急激なパラメータ更新を防ぐため、より安定した学習を可能にする。その結果、モデルが局所的な最適解に陥ることを避け、より良い汎化性能を引き出すことができる【Foret et al., 2020】。
繰り返しデータ増強では、同じデータを複数回異なる増強手法で処理することで、モデルが異なる視点からデータを学習でき、精度の向上が見込まれる【Fort et al., 2021】。

⑤性能が向上した記載

NFNet-F7+モデルは、8エポックの事前学習と50エポックのファインチューニングにより、90.3%のTop-1精度を達成した。さらに、繰り返しデータ増強を導入することで、90.4%のTop-1精度が達成された。
Vision Transformerと比較すると、ViT-g/14が90.2%のTop-1精度、ViT-G/14が90.45%のTop-1精度を達成しており、NFNetは計算効率の点で競争力を維持している【図1】。

▼生成AIの回答(ChatGPT-4o)
⑥比較の記載

モデル	Top-1精度 (%)	事前学習時間 (TPUコア時間)	デバイス	備考
NFNet-F7+	90.3	110k TPU-v4	TPU-v4	8エポックの事前学習、50エポックのファインチューニング
NFNet-F7+ (増強)	90.4	110k TPU-v4	TPU-v4	繰り返しデータ増強を使用
ViT-g/14	90.2	120k TPU-v4	TPU-v4	JFT-3Bでの事前学習
ViT-G/14	90.45	280k TPU-v4	TPU-v4	JFT-3Bでの事前学習
SoViT-400m/14	90.3	130k TPU-v4	TPU-v4	JFT-3Bでの事前学習
ViT-g/14	90.2	210k TPU-v3	TPU-v3	JFT-3Bでの事前学習
ViT-G/14	90.45	500k TPU-v3	TPU-v3	JFT-3Bでの事前学習
NFNet-F7+ (TPU-v3)	-	250 TPU-v3	TPU-v3	推定値、性能は劣ると予測

図1に対応。

⑦上記⑥以外で表に出来そうな部分

ファインチューニング条件	設定値	備考
トレーニング解像度	384×384	事前学習およびファインチューニング時の設定
評価解像度	480×480	評価時の設定
ファインチューニングエポック数	50	固定
繰り返しデータ増強の多重度	4	繰り返しデータ増強を導入した場合
使用した最適化アルゴリズム	SAM (Sharpness-Aware Minimization)	トレーニング時の最適化アルゴリズム
使用した正則化手法	Stochastic Depth, Dropout	過学習を防ぐための正則化手法

図1に対応。

⑧具体的な数値の記載

数値	説明
90.3%	NFNet-F7+のImageNetにおけるTop-1精度
90.4%	繰り返しデータ増強を行った場合のNFNet-F7+のTop-1精度
110k	NFNet-F7+の事前学習に要したTPU-v4コア時間
1.6k	NFNet-F7+のファインチューニングに要したTPU-v4コア時間
90.2%	ViT-g/14のImageNetにおけるTop-1精度
90.45%	ViT-G/14のImageNetにおけるTop-1精度
120k	ViT-g/14の事前学習に要したTPU-v4コア時間
280k	ViT-G/14の事前学習に要したTPU-v4コア時間
130k	SoViT-400m/14の事前学習に要したTPU-v4コア時間
250	NFNet-F7+のTPU-v3での事前学習に要する推定コア時間

⑨具体的な変数名

変数名	説明
Top-1	ImageNetにおけるTop-1精度
TPU-v4	トレーニングに使用したTPUのバージョン
SAM	Sharpness-Aware Minimization (最適化手法)
Stochastic Depth	深さに基づく確率的ドロップアウト手法

⑩図/表の説明

図1: Pre-trained NFNetsとVision TransformersのImageNetにおけるTop-1精度と計算リソースを比較。NFNet-F7+は90.3%のTop-1精度を達成し、ViT-g/14やViT-G/14とほぼ同等の精度を示している。計算リソースに対する効率も示されており、NFNetはViTと比べてTPU-v4でのトレーニング効率が高いことを主張している。

Discussion

▼質問(人間)

質問内容全体はここをクリック

(論文・記事の各章節を貼り付け) Discussion Our work reinforces the bitter lesson. The most important factors determining the performance of a sensibly designed model are the compute and data available for training5 (Tolstikhin et al., 2021). Although the success of ViTs in computer vision is extremely impressive, in our view there is no strong evidence to suggest that pre-trained ViTs outperform pre-trained ConvNets when eval- uated fairly. We note however that ViTs may have practical advantages in specific contexts, such as the ability to use similar model components across multiple modalities (Bavishi et al., 2023).

▼生成AIの回答(ChatGPT-4o)
①何についての記載か? + 要旨は何?

何についての記載か: コンピュータビジョンにおける事前学習済みのVision Transformers (ViTs) と畳み込みニューラルネットワーク (ConvNets) の比較、およびモデル性能における計算リソースとデータの重要性に関する議論である。
要旨:
- モデルの性能は、計算リソースとトレーニングデータの量に依存する。
- ViTsはコンピュータビジョンで成功しているが、公正に評価すれば事前学習済みのConvNetsがViTsより劣るという強力な証拠はない。
- ViTsは、複数のモダリティ間で同じモデルコンポーネントを使用できるといった、特定の文脈において実用的な利点を持つ場合がある【Bavishi et al., 2023】。

②具体的な処理方法の記載

具体的な処理方法の記載は無し。

③改良点・工夫点・テクニック等の記載

ViTsは、複数のモダリティ間で同じモデルコンポーネントを使用できるという点が特に強調されており、これは実際の運用において利点となる場合があるとされている【Bavishi et al., 2023】。

④メカニズムの解明・なぜそうなるのか等の記載

本研究は、モデル性能を左右する主要因として計算リソースとデータの量を挙げており、これが成功の決定的要素であると結論付けている。この点は、他の要素に比べてこれらのリソースの重要性を強調する「苦い教訓 (bitter lesson)」に基づいている【Tolstikhin et al., 2021】。

⑤性能が向上した記載

性能向上に関する具体的な数値や改善点の記載は無し。

あとがき

所感

機械学習についてある程度知っていないと、生成AIに質問しても、その回答内容だけでは理解できないと思います。生成AIの回答は、論文の内容をあまり変えずに、要点をそのまま掻い摘んで回答するような形になっています。(良い意味で論文の要点をそのまま抜き出した形)

分かったこと

分かったこと・注目した点を列挙すると:

ConvNetとVision Transformers（ViTs）の性能比較について、特に大規模データセットを使用した場合のConvNetの性能に焦点を当てている。
JFT-4Bという大規模なラベル付きデータセットを使用したNFNetアーキテクチャの性能を評価
NFNetは、Vision Transformersに匹敵する性能を持ちながら、ConvNetアーキテクチャの優れた計算効率を活かしている。

ConvNetが小規模または中規模のデータセットにおいては優れた性能を示すが、大規模データセットではVision Transformersほど競争力がないという一般的な信念に挑戦している。

ImageNetでのファインチューニング後、NFNetsは同等の計算予算でVision Transformersに匹敵する性能を達成。

NFNetアーキテクチャの特性として、Batch Normalizationを排除し、より大規模なモデルを安定して学習できるように設計されているため、大規模データセット上でも性能が向上している。

最も強力なモデルは、ImageNetに対してファインチューニングされ、Top-1精度90.4%を達成している。この結果は、Vision Transformersの報告された性能に匹敵するものである。

NFNet (Normalizer-Free Network) :
Batch Normalizationは計算コストが高く、特に大規模なデータセットや大規模なモデルで問題となることがある。NFNetではBatch Normalizationを使用せずに、畳み込み層の重みを調整する「スケールド重み標準化」という手法を採用し、同等の学習の安定性を実現している。
Adaptive Gradient Clipping (AGC) : 勾配爆発の問題を防ぐために、勾配の大きさをモデルのパラメータの大きさに応じてスケールすることで、学習の安定性を保っている。これにより、Batch Normalizationなしでも安定した学習が可能となっている。
NFNetはResNetに類似したアーキテクチャを基にしており、残差ブロックを活用している。

Vision TransformersがConvNetsより優れたスケーリング特性を持つと広く信じられているが、証拠は少ない。
多くの研究では、弱いConvNetベースラインとViTsが比較されている。
最も強力なViTモデルは、ConvNetsよりも大きな計算リソースを使用してトレーニングされている (Zhai et al., 2022)。
ImageNetでのファインチューニング後、NFNetは同等の計算予算でViTと同等の性能を示した (Alabdulmohsin et al., 2023; Zhai et al., 2022)。

ConvNetのスケーリング特性に関するlog-logスケーリング法則が観察された。この法則により、計算リソースが増加すると、検証損失が減少することが示された。

計算予算が増加するにつれて、最適なモデルサイズやエポック数も増加する。

小さなエポック数では最適な学習率が1.6に近いが、エポック数が増加するにつれて学習率は低下する。

モデルサイズとエポック数が増加すると学習率が単調に減少することを利用し、2回の試行で最適な学習率を見つけられるようにした。

計算予算と検証損失の間にlog-logスケーリング法則が見られた。これは、Brown et al. (2020) や Hoffmann et al. (2022) で言及されている言語モデルのスケーリング法則と一致している。

ImageNet上でファインチューニングを行う:
ファインチューニングでは、Sharpness-Aware Minimization (SAM)【Foret et al., 2020】、Stochastic Depth、およびDropoutを使用。
Sharpness-Aware Minimization (SAM)【Foret et al., 2020】を利用することで、トレーニングにおけるパラメータ更新時の急峻な変化を抑え、性能を向上させている。
Stochastic DepthとDropoutを併用して、モデルの過学習を防ぎ、より汎化性能を高めている。
繰り返しデータ増強【Fort et al., 2021; Hoffer et al., 2019】を用いることで、90.3%から90.4%への精度向上を達成している。

コンピュータビジョンにおける事前学習済みのVision Transformers (ViTs) と畳み込みニューラルネットワーク (ConvNets) モデルの性能は、計算リソースとトレーニングデータの量に依存する。
ViTsはコンピュータビジョンで成功しているが、公正に評価すれば事前学習済みのConvNetsがViTsより劣るという強力な証拠はない。
ViTsは、複数のモダリティ間で同じモデルコンポーネントを使用できるといった、特定の文脈において実用的な利点を持つ場合がある【Bavishi et al., 2023】。

本研究は、モデル性能を左右する主要因として計算リソースとデータの量を挙げており、これが成功の決定的要素であると結論付けている。この点は、他の要素に比べてこれらのリソースの重要性を強調する「苦い教訓 (bitter lesson)」に基づいている【Tolstikhin et al., 2021】。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up