0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks 【5 DISCUSSION】【論文 DeepL 翻訳】

Posted at

この記事は自分用のメモみたいなものです.
ほぼ DeepL 翻訳でお送りします.
間違いがあれば指摘していだだけると嬉しいです.

翻訳元
The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

前: 【4 VGG AND RESNET FOR CIFAR10】
次: 【6 LIMITATIONS AND FUTURE WORK】

5 DISCUSSION

訳文

ニューラルネットワークのプルーニングに関する既存の研究 (e.g., Han et al. (2015)) は, ニューラルネットワークによって学習された関数が, より少ないパラメータで表現されることが多いことを実証している. プルーニングは, 典型的には, 元のネットワークを訓練し, 接続を除去し, さらに微調整することによって進行する. 実際には, 最初の訓練ではプルーニングされたネットワークの重みを初期化し, 微調整中に単独で学習できるようにする. 我々は, 同様のスパースなネットワークが最初から学習できるかどうかを判断しようとしている. この論文で研究されたアーキテクチャは, そのような学習可能なサブネットワークを確実に含んでいることがわかり, 宝くじ仮説は, この特性が一般的に適用されることを提案する. winning tickets の存在と性質に関する我々の経験的研究は, いくつかの下記の質問を呼び起こす.

winning ticket 初期化の重要性. ランダムに再初期化された場合, winning ticket はよりゆっくりと学習し, より低いテスト精度を達成することができ, 初期化が成功に重要であることを示唆している. この動作の一つの可能な説明は, これらの初期重みが訓練後の最終値に近いということ, つまり、最も極端なケースでは, すでに訓練されているということである. しかし, 付録 F の実験では, 逆のことを示している - winning ticket の重みは, 他の重みよりも遠くに移動する. このことは, 初期化の利点が最適化アルゴリズム, データセット, モデルに関係していることを示唆している. 例えば, winning ticket の初期化は, 選択した最適化アルゴリズムによって最適化されやすい損失ランドスケープの領域に着陸するかもしれない.

Liu et al. (2019) は, 従来の常識と我々のランダム再初期化実験とは一見矛盾するようだが, プルーニングされたネットワークはランダムに再初期化すると確かに訓練可能であることを発見している. 例えば、VGG-19 (我々が同じセットアップを共有している) では, 最大 80 $%$ までプルーニングされ, ランダムに再初期化されたネットワークは, 元のネットワークの精度と一致することを発見している. 図 7 の我々の実験では, このレベルのスパースさ (Liuらはデータを提示していない) でこれらの知見を確認している. しかし, さらにプルーニングを行うと, 初期化が重要になる: VGG-19 が最大 98.5 $%$ までプルーニングされているとき, winning tickets を見つける; 再初期化されたとき, これらの tickets ははるかに低い精度に達す. あるレベルのスパースさまでは, 高度にオーバーパラメタライズされたネットワークは, プルーニング, 再初期化, 再学習に成功することができるという仮説を立てている. しかし, このポイントを超えると, 非常にプルーニングされた, それほど深刻ではないオーバーパラメタライズされたネットワークは, 偶然の初期化によってのみ精度を維持する.

winning ticket の構造の重要性. winning tickets を生成する初期化は, 特定のスパースアーキテクチャに配置されている. 我々は学習データを多用することで winning tickets を発見するので, winning tickets の構造が学習タスクに合わせてカスタマイズされた帰納的バイアスをコード化しているのではないかと仮説を立てる. Cohen & Shashua (2016) は, ディープネットワークの構造に埋め込まれた帰納的バイアスが, 浅いネットワークよりもパラメータ効率的に分離できるデータの種類を決定することを示している. Cohen & Shashua (2016) は畳み込みネットワークのプーリングジオメトリに焦点を当てているが, 同様の効果が winning tickets の構造にも作用している可能性があり, 重くプルーニングされた場合でも学習できる.

winning tickets の改良された一般化. 元のネットワークのテスト精度を超え, 訓練精度と一致する, より一般化した winning tickets を確実に見つる. プルーニングを行うと, テスト精度は増加し, その後減少し, オッカムの丘 (Rasmussen & Ghahramani, 2001) を形成する. ここで, オリジナルのオーバーパラメタ化されたモデルは複雑すぎ (おそらくオーバーフィット), 極端に刈り込まれたモデルは小さすぎる. 圧縮と一般化の関係についての従来の見解は, コンパクトな仮説の方が一般化しやすいというものである (Rissanen, 1986). 最近の理論研究では, ニューラルネットワークについても同様の関連性が示されており, さらに圧縮できるネットワークの方がよりタイトな一般化の境界を証明している(プルーニング/量子化については Zhou et al. (2018), ノイズロバスト性については Arora et al. (2018)). 宝くじ仮説は, この関係を補完する視点を提供している.

ニューラルネットワーク最適化への示唆. winning tickets は, オリジナルのプルーニングのないネットワークと同等の精度に達することができるが, パラメータはかなり少なくなる. この観察は, ニューラルネットワーク訓練におけるオーバーパラメータ化の役割に関する最近の研究につながる. 例えば, Du et al. (2019) は, SGD で訓練された十分にオーバーパラメタ化された 2 層の relu ネットワーク (固定サイズの第 2 層を持つ) が大域的な最適値に収束することを証明している. そこで, 重要な問題は, ニューラルネットワークを特定のテスト精度に最適化するために SGD が必要なのか, それとも十分なのかということである. 我々は, SGD が初期化されたサブネットワークを探し出して訓練すると推測している (経験的には示していません). この論理によれば, オーバーパラメタ化されたネットワークは, winning tickets となる可能性のあるサブネットワークの組み合わせがより多くなるため, 訓練が容易になる.

原文

Existing work on neural network pruning (e.g., Han et al. (2015)) demonstrates that the function learned by a neural network can often be represented with fewer parameters. Pruning typically proceeds by training the original network, removing connections, and further fine-tuning. In effect, the initial training initializes the weights of the pruned network so that it can learn in isolation during fine-tuning. We seek to determine if similarly sparse networks can learn from the start. We find that the architectures studied in this paper reliably contain such trainable subnetworks, and the lottery ticket hypothesis proposes that this property applies in general. Our empirical study of the existence and nature of winning tickets invites a number of follow-up questions.

The importance of winning ticket initialization. When randomly reinitialized, a winning ticket learns more slowly and achieves lower test accuracy, suggesting that initialization is important to its success. One possible explanation for this behavior is these initial weights are close to their final values after training—that in the most extreme case, they are already trained. However, experiments in Appendix F show the opposite—that the winning ticket weights move further than other weights. This suggests that the benefit of the initialization is connected to the optimization algorithm, dataset, and model. For example, the winning ticket initialization might land in a region of the loss landscape that is particularly amenable to optimization by the chosen optimization algorithm.

Liu et al. (2019) find that pruned networks are indeed trainable when randomly reinitialized, seemingly contradicting conventional wisdom and our random reinitialization experiments. For example, on VGG-19 (for which we share the same setup), they find that networks pruned by up to 80% and randomly reinitialized match the accuracy of the original network. Our experiments in Figure 7 confirm these findings at this level of sparsity (below which Liu et al. do not present data). However, after further pruning, initialization matters: we find winning tickets when VGG-19 is pruned by up to 98.5%; when reinitialized, these tickets reach much lower accuracy. We hypothesize that—up to a certain level of sparsity—highly overparameterized networks can be pruned, reinitialized, and retrained successfully; however, beyond this point, extremely pruned, less severely overparamterized networks only maintain accuracy with fortuitous initialization.

The importance of winning ticket structure. The initialization that gives rise to a winning ticket is arranged in a particular sparse architecture. Since we uncover winning tickets through heavy use of training data, we hypothesize that the structure of our winning tickets encodes an inductive bias customized to the learning task at hand. Cohen & Shashua (2016) show that the inductive bias embedded in the structure of a deep network determines the kinds of data that it can separate more parameter-efficiently than can a shallow network; although Cohen & Shashua (2016) focus on the pooling geometry of convolutional networks, a similar effect may be at play with the structure of winning tickets, allowing them to learn even when heavily pruned.

The improved generalization of winning tickets. We reliably find winning tickets that generalize better, exceeding the test accuracy of the original network while matching its training accuracy. Test accuracy increases and then decreases as we prune, forming an Occam’s Hill (Rasmussen & Ghahramani, 2001) where the original, overparameterized model has too much complexity (perhaps overfitting) and the extremely pruned model has too little. The conventional view of the relationship between compression and generalization is that compact hypotheses can better generalize (Rissanen, 1986). Recent theoretical work shows a similar link for neural networks, proving tighter generalization bounds for networks that can be compressed further (Zhou et al. (2018) for pruning/quantization and Arora et al. (2018) for noise robustness). The lottery ticket hypothesis offers a complementary perspective on this relationship—that larger networks might explicitly contain simpler representations.

Implications for neural network optimization. Winning tickets can reach accuracy equivalent to that of the original, unpruned network, but with significantly fewer parameters. This observation connects to recent work on the role of overparameterization in neural network training. For example, Du et al. (2019) prove that sufficiently overparameterized two-layer relu networks (with fixed-size second layers) trained with SGD converge to global optima. A key question, then, is whether the presence of a winning ticket is necessary or sufficient for SGD to optimize a neural network to a particular test accuracy. We conjecture (but do not empirically show) that SGD seeks out and trains a well-initialized subnetwork. By this logic, overparameterized networks are easier to train because they have more combinations of subnetworks that are potential winning tickets.

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?