FireCaffe: near-linear acceleration of deep neural network training on compute clusters
Deep learningの学習コストの高さは問題である。
本論で提案するFireCaffeはマルチGPUクラスタに対して良くスケールするツールである。
また加えて効率化を行うためのいくつかのbest practicesを提案する。
分散処理を行うにあたり、クラスタ間通信コストがボトルネックとなる。
FireCaffeではdeep learning学習性能を下げる事なく通信コストを低減させる。
これを実現するために、従来のparameter server approachではなく、reduction tree approachに基づくアルゴリズムを提案する。
SqueezeNet: AlexNet-level accuracy with 50x fewer parameters
CNNでは、同程度の性能を維持したまま様々なネットワーク構造を取る事が可能である。
中でもできる限り小さなネットワーク構造を持つ事は計算量や分散処理における通信コストの観点から有用である。
本論で提案するsqueeze netはalexnet相当の性能を維持しつつパラメータ数を50分の1にする事が可能である。
Using FastWeights to Attend to the Recent Past, NIPS2016
従来のニューラルネットワーク構造は、現在、あるいは今までの入力と、それらに適用する重みを変数としてのみ扱ってきた。
しかし実際においては変数をこれらに限定する必要はない。
本論で提案するネットワークでは、重みは通常よりも変化しやすく、しかし入力そのものよりは遅くなるようにしたものを利用する。
このようなfast weightは直近に関する一時的なメモリとして働き、自然な形で過去に関するattention機構として働く。
この機構はsequence-to-sequence learningを行う上で有用となる。