前回の記事「Hinton教授のDeep Belief Networkの論文を理解したい part2_introduction」(https://qiita.com/dango_ha_mitarashi_ha/items/47cffadcf503da250225)
はボロボロでしたが、とりあえずイントロダクションまでは無理やり読み進めていきたいと思います。
前回同様に翻訳していきます。
Introduction前半
【原文7】
Learning is difficult in densely-connected, directed belief nets that have many hidden layers because it is difficult to infer the conditional distribution of the hidden activities when given a data vector.
【翻訳7】
データベクトルが与えられた時、"hidden activities"の条件付き分布を推測することは難しいため、多くの隠れ層を持つ"densely-connected, directed belief nets"の学習は難しい。
【原文8】
Variational methods use simple approximations to the true conditional distribution, but the approximations may be poor, especially at the deepest hidden layer where the prior assumes independence.
【翻訳8】
変分法では真の条件付き分布に対して単純な近似を使用するが、その近似は貧弱である可能性があるー特に"the prior"が独立性を仮定している場合の最も深い隠れ層においては。
【原文9】
Also, variational learning still requires all of the parameters to be learned together and makes the learning time scale poorly as the number of parameters increases.
【翻訳9】
また、変分学習では全てのパラメータを同時に学習する必要があり、パラメータ数が増加するに伴って学習時間スケールが貧弱になる。
【原文10,11】
We describe a model in which the top two hidden layers form an undirected associative memory (see figure 1) and the remaining hidden layers form a directed acyclic graph that converts the representations in the associative memory into observable variables such as the pixels of an image. This hybrid model has some attractive features.
【翻訳10,11】
ここでは、上位2つの隠れ層が"undirected associative memory"であり、残りの隠れ層が"associative memory"を画像のピクセルのような観察可能な変数に変換するような"directed acyclic graph"を形成するような、モデルを説明する。このハイブリッドモデルにはいくつかの魅力的な特徴がある。
【原文12~18】
(恐らく大きな翻訳ミスや問題はないと思うので、省略)
【翻訳12~18】
特徴:
*1.数百万のパラメータと多くの隠れ層を持つディープネットワークでも、かなり良いパラメータセットをすばやく見つけることができる、高速貪欲学習アルゴリズムがある。
2.その学習アルゴリズムは教師なし学習だが、ラベルとデータの両方を生成するモデルを学習にしようすることで、ラベル付きデータにも適用することができる。
3.手書き数字のMNISTデータベース上の識別方法より優れた優れた生成モデルを学習する微調整アルゴリズムが存在する。
4.生成モデルにより、深い隠れ層における分布表現の解釈が容易に行える。
5.パーセプトロンを形成するために必要な推測は、迅速かつ正確に行える。
6.学習アルゴリズムはローカルである:シナプス強度の調整は、シナプス前シナプスおよびシナプス後ニューロンの状態のみに依存する。
7.情報伝達はシンプルである:
各ニューロンはそれらの確率的2値状態を伝達するだけでよい。
*
【原文19~20】(これも略)
【翻訳19~20】
第2節では、推論モデルを推論することを困難にする「解説」現象を正確に打ち消す“complementary” priorの概念を紹介する。"complementary priors"が存在するDBNの例を提示する。
【原文21】(これも略)
【翻訳21】
第3節では、RBMと、"tied weights"をもつ"infinite directed networks"が等価であることを記す。
【原文22~25】(これも略)
【翻訳22~25】
第4節では、一度に1層ずつ多層の"directed networks"を構築するための高速貪欲学習アルゴリズムを紹介する。"variational bound"を使用することにより、新たな層が追加されるたびに全体の生成モデルが向上することがわかる。貪欲アルゴリズムは、同じ"weak learner"を繰り返し利用し増幅していくことと似ているが、次のステップにおいて新たな学習を確実に行うために各データベクトルを再度重みづけする代わりに、"re-represent"する。多層の"directed network"の構築に使われる"weak learner"はそれ自身が"undirected graphical model"である。
1ページ目が終了したので、ここで一区切りします。
#Introduction前半まとめ
アブストに引き続き、やはりわからない言葉だらけでした。
とりあえずまとめてみると、
・多くの隠れ層を持つ"densely-connected, directed belief nets"の学習は今まで難しかった。
・その学習法として「変分法」という既存の方法があるが、"the prior"の条件やパラメータ数が多い場合には時間がかかったり十分な性能が得られなかったりしていた。
・今回は、上位2つの隠れ層が"undirected associative memory"であり、残りの隠れ層が"directed acyclic graph"を形成するような、モデルについて考えている。
このモデルには、今回提案する高速貪欲アルゴリズムを適用することができ、MNIST等で従来と比較し良い結果が得られた。
・第2節では"complementary priors"について説明する。
・第3節では、RBMと、"tied weights"をもつ"infinite directed networks"が等価であることを記す。
やはり、"(un)directed","(complementary) prior"あたりについてはきちんと理解していないと読み進められなさそうです。
次回、後半も読もうと思います。