原文
大規模分散深層ネットワーク(Large Scale Distributed Deep Networks)
Jeffrey Dean, Greg S. Corrado, Rajat Monga, Kai Chen (2012)
1. 要約
Googleが開発したDist Beliefに関する論文である。
並列処理によるDeep Learning計算の高速化を理解する上でも参考になる。
2. 骨子の理論
DistBeliefは大規模機械学習装置の機能をもつ。
TensorFlowの前身となるシステムになっている。
以下に、DistBeliefを構成するKey Technologyを整理する。
①Downpur SGD
SGDの計算過程を最適化するプログラム。
常に学習係数の最適化を志向する。レプリカが非対称に重みを更新する。
凸性のない、勾配消失問題が起きやすいケースにも対応できる。
②Sandblaster L-BFGS
並列処理プログラムであるL-BFGSの発展版。
データの読込みからモデル計算まで、並列計算による高速化を実現する。
※過去の並列計算プログラムは、Deep Networkの計算に不向きである。
MapReduce→多層ネットワークにおける繰り返し計算に向かない
GraphLab→構造化されたグラフにおいて、計算効率が悪くなる
3. モデル適用例
下図は、異なる4つの多層ネットワークをDistBeliefで処理した結果である。
ポイントは、パラメータの多いモデルに対して、並列処理の規模が大きくなるほど、スピード向上の効果が認められることが判明した。
Googleは、DistBeliefの仕組みを使って、10億を超えるノードのNNにおいて、20000超の大規模画像認識の機械学習システムを構築している。