0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks 【3 WINNING TICKETS IN CONVOLUTIONAL NETWORKS】【論文 ほぼ Google 翻訳 自分用】

Last updated at Posted at 2020-03-12

この記事は自分用のメモみたいなものです.
ほぼ Google 翻訳でお送りします.
間違いがあれば指摘していだだけると嬉しいです.

翻訳元
The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

前: 【2 WINNING TICKETS IN FULLY-CONNECTED NETWORKS】
次: 【4 VGG AND RESNET FOR CIFAR10】

3 WINNING TICKETS IN CONVOLUTIONAL NETWORKS

訳文

ここでは, CIFAR10 の畳み込みネットワークに宝くじ仮説を適用し, 学習問題の複雑さとネットワークのサイズの両方を増加させます. 図 2 の Conv-2, Conv-4, および Conv-6 アーキテクチャを検討します. これらのアーキテクチャは, VGG (Simonyan & Zisserman, 2014) ファミリの縮小版です. ネットワークには $2$ つ, $4$ つ, または $6$ つの畳み込み層があり, その後に $2$ つの全結合層が続きます. Max-プーリングは, $2$ つの畳み込み層ごとに発生します. ネットワークは, Conv-2 の畳み込み層のパラメーターの $1%$ 未満から Conv-6 のほぼ $3$ 分の $2$ まで, ほぼ完全に接続されたものから従来の畳み込みネットワークまでの範囲をカバーしています.1

当選チケットを見つける. 図 5 (上) の実線は, 図 2 の層ごとの枝刈り率での Conv-2 (青), Conv-4 (オレンジ), および Conv-6 (緑) での反復宝くじの実験を示しています. セクション 2 の Lenet のパターンは繰り返されます: ネットワークが枝刈りされると, 元のネットワークと比較して学習が速くなり, テストの精度が上がります. この場合, 結果はより顕著になります. 当選チケットは, 最高で Conv-2 で $3.5$ 倍 ($P_m=8.8%$), Conv-4 で$3.5$ 倍($P_m=9.2%$), Conv-6 で $2.5$ 倍 ($P_m=15.1%$) 速く検証損失最小に達します. テスト精度は, Conv-2 で $3.4$ パーセントポイント ($P_m=4.6%$), Conv-4 で $3.5$ ($P_m=11.1%$), Conv-6 で $3.3$ ($P_m=26.4%$) 向上しています. $P_m>2%$ の場合, $3$ つのネットワークはすべて元の平均テスト精度を上回っています.

4.png

図 5: 反復枝刈りされ, ランダムに再初期化された場合の Conv-2/4/6 アーキテクチャの早期停止イテレーションおよびテストとトレーニングの精度. 各実線は, $5$ 回の試行の平均です; 各破線は, $15$ 回の再初期化の平均です (試行ごとに $3$ 回). 右下のグラフは, 元のネットワークのトレーニングの最後のイテレーション (Conv-2 の場合は$20,000$, Conv-4 の場合は $25,000$, Conv-6 の場合は $30,000$) に対応するイテレーションでの当選チケットのテスト精度をプロットします; このイテレーションでは, 当選チケットの $P_m \geq 2%$ でトレーニングの精度 $\approx 100%$ です (付録 D を参照).

このイテレーションでは, $P_m \geq 2%$ の場合, トレーニングの精度は $\approx 100%$ で, チケットを獲得します (付録 D を参照).

セクション 2 のように, アーリーストッピングイテレーションでのトレーニングの精度は, テストの精度とともに上がります. ただし, Conv-2 のイテレーション $20,000$, Conv-4 の $25,000$, Conv-6 の $30,000$ (元のネットワークの最終トレーニングイテレーションに対応するイテレーション)で, $P_m>2%$ の場合, トレーニング精度はすべてのネットワークで $100%$ に達し (付録 D, 図 13), 当選チケットは, さらに高いテスト精度を維持します (図5右下). これは, 当選チケットのテストとトレーニングの精度のギャップが小さいことを意味しており, チケットの一般化が良好であることを示しています.

ランダム再初期化. セクション 2 のランダムな再初期化実験を繰り返します. これは, 図 5 に破線で示されています. これらのネットワークは, 枝刈りを継続すると学習にさらに時間がかかります. MNIST の Lenet (セクション 2) と同様に, ランダムな再初期化実験では, テストの精度がより急速に低下します. ただし, Lenet とは異なり, アーリーストッピング時のテストの精度は最初は安定しており, Conv-2 および Conv-4 でも改善されています. これは —適切なレベルの枝刈りのとき— , 当選チケットの構造だけで精度が向上する可能性があることを示しています.

ドロップアウト. ドロップアウト (Srivastava et al., 2014; Hinton et al., 2012) は, トレーニングのイテレーションごとにユニットの一部をランダムに無効にする (つまり, サブネットワークをランダムにサンプリングする) ことで精度を向上させます. Baldi & Sadowski (2013) は, ドロップアウトをすべてのサブネットワークのアンサンブルを同時にトレーニングするものとして特徴付けています. 宝くじ仮説は, これらのサブネットワークの $1$ つが当選チケットを構成することを示唆しているため, ドロップアウトと当選チケットを見つけるための戦略が相互作用するかどうかを尋ねることは自然です.

図 6 は, ドロップアウト率 $0.5$ で Conv-2, Conv-4, および Conv-6 をトレーニングした結果を示しています. 破線は, ドロップアウトのないネットワークパフォーマンスです (図 5 の実線).2 ドロップアウトでトレーニングする場合, 引き続き当選チケットを見つけます. ドロップアウトにより初期のテスト精度が向上し (Conv-2, Conv-4, Conv-6 でそれぞれ平均 $2.1$, $3.0$, $2.4$ パーセントポイント), 反復枝刈りによりさらに向上 (最大 $2.3$, $4.6$, $4.7$ パーセントポイント, それぞれ平均). 学習は, 以前のように反復枝刈りで高速になりますが, Conv-2 の場合は劇的に少なくなります.

5.png

図 6: 反復枝刈りとドロップアウトでトレーニングされた場合のアーリーストッピングイテレーションと Conv-2/4/6 のアーリーストッピング時のテスト精度. 破線は, ドロップアウトなしでトレーニングされた同じネットワークです (図 5 の実線). 学習率は, Conv-2 では $0.0003$, Conv-4および Conv-6 では $0.0002$ です.

これらの改善は, 反復枝刈り戦略が補完的にドロップアウトと相互作用することを示唆しています. Srivastava et al. (2014) は, ドロップアウトが最終的なネットワークでスパースなアクティベーションを誘発することを観察しています; ドロップアウトに起因するスパース性が, 枝刈りされたネットワークを準備する可能性があります. その場合, 重みをターゲットにするか, 重みごとのドロップアウト確率を学習するドロップアウト技術により, 当選チケットをさらに簡単に見つけることができます.

原文

Here, we apply the lottery ticket hypothesis to convolutional networks on CIFAR10, increasing both the complexity of the learning problem and the size of the networks. We consider the Conv-2, Conv-4, and Conv-6 architectures in Figure 2, which are scaled-down variants of the VGG (Simonyan & Zisserman, 2014) family. The networks have two, four, or six convolutional layers followed by two fully-connected layers; max-pooling occurs after every two convolutional layers. The networks cover a range from near-fully-connected to traditional convolutional networks, with less than $1%$ of parameters in convolutional layers in Conv-2 to nearly two thirds in Conv-6.3

Finding winning tickets. The solid lines in Figure 5 (top) show the iterative lottery ticket experiment on Conv-2 (blue), Conv-4 (orange), and Conv-6 (green) at the per-layer pruning rates from Figure 2. The pattern from Lenet in Section 2 repeats: as the network is pruned, it learns faster and test accuracy rises as compared to the original network. In this case, the results are more pronounced. Winning tickets reach minimum validation loss at best $3.5$x faster for Conv-2 ($P_m=8.8%$), $3.5$x for Conv-4 ($P_m=9.2%$), and $2.5$x for Conv-6 ($P_m=15.1%$). Test accuracy improves at best $3.4$ percentage points for Conv-2 ($P_m=4.6%$), $3.5$ for Conv-4 ($P_m=11.1%$), and $3.3$ for Conv-6 ($P_m=26.4%$). All three networks remain above their original average test accuracy when $P_m>2%$.

4.png

Figure 5: Early-stopping iteration and test and training accuracy of the Conv-2/4/6 architectures when iteratively pruned and when randomly reinitialized. Each solid line is the average of five trials; each dashed line is the average of fifteen reinitializations (three per trial). The bottom right graph plots test accuracy of winning tickets at iterations corresponding to the last iteration of training for the original network ($20,000$ for Conv-2, $25,000$ for Conv-4, and $30,000$ for Conv-6); at this iteration, training accuracy $\approx 100%$ for $P_m \geq 2%$ for winning tickets (see Appendix D).

As in Section 2, training accuracy at the early-stopping iteration rises with test accuracy. However, at iteration $20,000$ for Conv-2, $25,000$ for Conv-4, and $30,000$ for Conv-6 (the iterations corresponding to the final training iteration for the original network), training accuracy reaches $100%$ for all networks when $P_m>2%$ (Appendix D, Figure 13) and winning tickets still maintain higher test accuracy (Figure 5 bottom right). This means that the gap between test and training accuracy is smaller for winning tickets, indicating they generalize better.

Random reinitialization. We repeat the random reinitialization experiment from Section 2, which appears as the dashed lines in Figure 5. These networks again take increasingly longer to learn upon continued pruning. Just as with Lenet on MNIST (Section 2), test accuracy drops off more quickly for the random reinitialization experiments. However, unlike Lenet, test accuracy at early-stopping time initially remains steady and even improves for Conv-2 and Conv-4, indicating that—at moderate levels of pruning—the structure of the winning tickets alone may lead to better accuracy.

Dropout. Dropout (Srivastava et al., 2014; Hinton et al., 2012) improves accuracy by randomly disabling a fraction of the units (i.e., randomly sampling a subnetwork) on each training iteration. Baldi & Sadowski (2013) characterize dropout as simultaneously training the ensemble of all subnetworks. Since the lottery ticket hypothesis suggests that one of these subnetworks comprises a winning ticket, it is natural to ask whether dropout and our strategy for finding winning tickets interact.

Figure 6 shows the results of training Conv-2, Conv-4, and Conv-6 with a dropout rate of $0.5$. Dashed lines are the network performance without dropout (the solid lines in Figure 5).4 We continue to find winning tickets when training with dropout. Dropout increases initial test accuracy ($2.1$, $3.0$, and $2.4$ percentage points on average for Conv-2, Conv-4, and Conv-6, respectively), and iterative pruning increases it further (up to an additional $2.3$, $4.6$, and $4.7$ percentage points, respectively, on average). Learning becomes faster with iterative pruning as before, but less dramatically in the case of Conv-2.

5.png

Figure 6: Early-stopping iteration and test accuracy at early-stopping of Conv-2/4/6 when iteratively pruned and trained with dropout. The dashed lines are the same networks trained without dropout (the solid lines in Figure 5). Learning rates are $0.0003$ for Conv-2 and $0.0002$ for Conv-4 and Conv-6.

These improvements suggest that our iterative pruning strategy interacts with dropout in a complementary way. Srivastava et al. (2014) observe that dropout induces sparse activations in the final network; it is possible that dropout-induced sparsity primes a network to be pruned. If so, dropout techniques that target weights (Wan et al., 2013) or learn per-weight dropout probabilities (Molchanov et al., 2017; Louizos et al., 2018) could make winning tickets even easier to find.

  1. 付録 H では, 学習率, 最適化戦略 (SGD, モーメンタム), および畳み込み層と全結合層を枝刈りする相対率など, 他のハイパーパラメーターについて説明します.

  2. ドロップアウトでトレーニングされたネットワークの新しい学習率を選択します. 付録 H.5 を参照してください.

  3. Appendix H explores other hyperparameters, including learning rates, optimization strategies (SGD, momentum), and the relative rates at which to prune convolutional and fully-connected layers.

  4. We choose new learning rates for the networks as trained with dropout—see Appendix H.5.

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?