機械学習論文読みメモ_128 #機械学習

Log-DenseNet: How to Sparsify a DenseNet
Skip connectionはdeepnetの性能向上のために重要な要素となっている。
特にDenseNetがその例として挙げられる。
しかしこのモデルはネットワークの深さに関してscalabilityを保てず
また計算コストが膨大化しやすい。
本論ではまず、こうしたskip connectionの利点は、各特徴層へのパスが
短くなることでback propagationによる情報伝達がしやすくなることに
あることを示した。
この知見をもとに、本論ではDenseNetよりも少しだけback propagation
を行う際の距離が伸びるが、connectionの数を2乗オーダーからlogオーダー
に削減したLogDenseNetを提案する。

HIERARCHICAL REPRESENTATIONS FOR EFFICIENT ARCHITECTURE SEARCH
本論ではevolutionary algorithmに基づいてarchicecture searchの
手法を提案する。
この手法は人間のエキスパートが用いているmodularized design patternを
まねたhierarchical representation schemeと、
複雑なトポロジーに対応可能な探索空間を組み合わせる。
hierarchical representation schemeでは、
最小に小さく簡単なconvolutionやpoolingのみの組み合わせからはじめ、
そのあとその構造を単位とした組み合わせでblockを形成していくことで
より高位の複雑なネットワークを形成する手法である。
こうして実現される複雑な探索空間に対して、evolutionary algorithmと
（あるいは単純なrandom searchと）組み合わせて探索を行うことで
SOTAな性能のネットワークを見つける事が可能になる。

The Implicit Bias of Gradient Descent on Separable Data
本論ではunregularized logistic regressionを分離可能なデータに対して学習した場合、
max-margin solutionへ収束する事を示した。
この結果はさらに単調減少関数に関して一般化できることを示し、
また多クラス拡張としてcross entropy lossに関する一般化についても議論する。
さらにこの収束は遅く、logarithmic scaleである事を示す。
この事実より、訓練誤差がゼロになったり、訓練損失が限りなく小さくなったとしても、
学習を続けることに意味があることを示唆する。