概要
Convolutional and Residual Networks Provably Contain Lottery Tickets
概要:強い宝くじ仮説の証明
新規性:(1) Residual構造付きCNNに対する強い宝くじ仮説の証明を与えた。
(2) Positiveであることを仮定しないのでReLU以外でも適用可能。
(3) 証明時、レイヤ数$2L$のニューラルネットではなく、$L+1$を考えればよい。
キモ:次のレイヤの値はこうモデル化して、skip-connection対応させる。
評価:ResNetで実証した。
Sparse Double Descent: Where Network Pruning Aggravates Overfitting
概要:枝刈りにおいて過学習が起こるかどうかの研究
新規性:Denseなネットワーク同様、枝刈り後のネットワークも過学習が起こることを示した。
キモ:初期重みとTest accuracyに相関がある。
評価:VGG, ResNet, CIFAR, MNIST等で実験した。
Universality of Winning Tickets: A Renormalization Group Perspective
概要:宝くじ仮説の理論解析
新規性:宝くじのIMPはくりこみ群の手順と同じことを示した。それによって得られた当たりくじは様々なタスクに使えることを示した。
キモ:くりこみ群との対応付け
評価:ResNet, BERTで示した。
A Study on the Ramanujan Graph Property of Winning Lottery Tickets
概要:宝くじ理論へのラマヌジャングラフの適用
新規性:宝くじ理論で、ラマヌジャングラフの性質(疎だが結合が多い)を満たすように刈る方法。
キモ:ラマヌジャングラフを満たすように刈るアルゴリズム
評価:MNIST, CIFAR10で実験した。
Training Your Sparse Neural Network Better with Any Mask
概要:ToST. Sparse Trainingで精度を上げる方法
新規性:うまいマスクを満つける方法ではなく、どのようなマスクからでも、性能高く学習できる方法を与えた。
キモ:DenseなNWの学習方法から少しカスタマイズして学習する。
Sparse Trainingは勾配が不安定になるのが課題。これを解決する。
(1) GSw. ReLUをSwishやMishにおきかえて、小さな項の値でも勾配を持つようにする。
(2) GSk. Skip Connectionを増やす (RepVGGに似てる)
(3) LRsI. 初期値は枝刈り前からリスケールし、初回のロスが最小になるようにする。(GradInit)
(4) Label Smoothing
評価:ResNet, CIFAR等で実験した。
PLATON: Pruning Large Transformer Models with Upper Confidence Bound of Weight Importance
概要:PLATON. 枝刈りで刈る要素の選び方。
研究機関:Microsoft
新規性:要素の重要度の確からしさの上界(UCB, Upper Confidence Bound)を評価して刈る。
キモ:$I_j$を、その要素を刈った時のロスの変化として、$I_j$を平滑化した$\bar{I_j}^{(t)}$の変化の平滑化量$\bar{U_j}^{(t)}$を不確からしさとする。
$S$が大きい方から$r$%を刈る。
評価:BERT, GLUEで実験した。
-
画像や数式は論文から引用しています。 ↩