More than 5 years have passed since last update.

【論文シリーズ】Dist Beliefの仕組み

Posted at 2016-06-06

原文

Googleが開発したDist Beliefに関する論文である。
並列処理によるDeep Learning計算の高速化を理解する上でも参考になる。

DistBeliefは大規模機械学習装置の機能をもつ。
TensorFlowの前身となるシステムになっている。

以下に、DistBeliefを構成するKey Technologyを整理する。

①Downpur SGD
SGDの計算過程を最適化するプログラム。
常に学習係数の最適化を志向する。レプリカが非対称に重みを更新する。
凸性のない、勾配消失問題が起きやすいケースにも対応できる。

②Sandblaster L-BFGS
並列処理プログラムであるL-BFGSの発展版。
データの読込みからモデル計算まで、並列計算による高速化を実現する。

※過去の並列計算プログラムは、Deep Networkの計算に不向きである。
MapReduce→多層ネットワークにおける繰り返し計算に向かない
GraphLab→構造化されたグラフにおいて、計算効率が悪くなる

下図は、異なる4つの多層ネットワークをDistBeliefで処理した結果である。
ポイントは、パラメータの多いモデルに対して、並列処理の規模が大きくなるほど、スピード向上の効果が認められることが判明した。

Googleは、DistBeliefの仕組みを使って、10億を超えるノードのNNにおいて、20000超の大規模画像認識の機械学習システムを構築している。