はじめに
Restricted Boltzmann Machines (RBM) について、Youtubeのある解説動画がfriendlyで分かりやすかったので簡単に和訳してみようと思います。私なりの理解も含まれているので直訳ではないことをご了承ください。専門用語と数式に気をとられてイメージが湧きにくい方におすすめです。アニメーションの方が分かりやすいので、動画を流しながら横で参照していただけると良いかもしれません。
引用(Reference)
Luis Serranoさんの、Restricted Boltzmann Machines (RBM) - A friendly introductionという動画です。
機械学習の本を執筆されていて、動画を見る限りこちらも分かりやすそうです。
https://www.manning.com/books/grokking-machine-learning
Mystery: ある屋敷の謎をRBMで表す
Aisha, Beto, Cameronの3人の人物が、ある屋敷の庭先に定期的に現れます。記録を取ってみると、彼らの出現には規則性があることに気づきました。AishaとCameronが2人とも現れるか、Betoが1人で現れるかのどちらかです。この3人はお互いを知らないのに、なぜでしょうか?
画像
実は、この家にはDescartesという犬と、Eulerという猫がいたのです。そしてAishaとCameronは2人とも犬好きで、Betoは猫好きだということが判明しました。もしかして、彼らの出現にはこの犬と猫が関係しているのではないか?という仮説を立てます。
画像
今までの話を数字で表してみます。人間がその動物のことをどれくらい好きかの「好き度」で人間と動物を繋いでいくと、Aishaは犬好きなので犬の好き度は「2」、猫は嫌いなので「-2」という重みづけをしてみます。他の2人、猫好きのBetoと犬好きのCameronについても同様に重みをつけます。
さらにもう1種類、数字が必要です。人間ならびに動物が、他からの影響を何も受けずに、そこにぽっと出現する確率です。これは、人間は3人とも等しく「1」と重みをつけてみます。動物について、今回は犬の方か出てくる確率が高く「2」、猫は犬よりレアキャラで「1」とします。
人間たちは現れたことがぱっと見で分かるので「Visible Layer」、動物たちはよく見ないと屋敷にいることに気づけないので「Hidden Layer」です。
画像
RBMの学習を理解するための準備
Scores: RBMにおけるスコア付け
人間と動物の組み合わせ(3人と2匹なので$2^5=32$通り)がどういう条件で発生するのかを知るために、各組み合わせごとに「スコア」を計算していきます。たとえばA~Eが全員出現したときは、今まで出てきた数字を全部足し合わせて
$2+1+1+1+1+2-2-4+4+2-2=-6$
となります。一方で、A, C, Dの組み合わせで出現した場合は、数字を全部足し合わせると8になります。AishaとCameronは犬好きだと分かっていたので、8という比較的大きい数字になったのは納得できます。B, Dの組み合わせの場合はスコアは-1で、Betoは犬嫌いなのでこれも妥当です。
全ての組み合わせについてこのスコアを計算すると、表の通りになります。
画像
以上の計算を、エネルギー$E$の数式で表します。スコアはエネルギーを負にした値で、これはBoltzmann Machineの起源に由来するのでそういうものだと思っておきます。
$$ E=-\sum_{i}b_iv_i-\sum_{i}a_ih_i-\sum_{ij}W_{ij}v_ih_j $$
(補足)急に仰々しくなりましたが、これは先ほどたどった計算を変数で表しているだけで、Visible Layerの人間の出現確率$b_i$、Hidden Layerの動物の出現確率$a_i$、人間ごとの動物の「好き度」$W_{ij}$に、それぞれの個体のステート(出現したら$1$、出現しなかったら$0$)を表す$v_i$と$h_i$をかけることで、その重みを足すか足さないかを決めています。
画像
Probabilites: スコアを確率に変換する(ソフトマックス関数)
全組み合わせ分の一覧表にしたスコアを、確率の値に変換します。単純に考えると各スコアをスコアの総和で割れば確率になるのですが、これだとたとえばスコアが$-1$, $0$, $1$のときに分母が$0$で成立しません。
そこで、付いている符号に関わらず全ての数字を正に変換してくれる、指数関数$e$を利用しましょう。正の数字に変換したあと、総和で割って確率で表します。
画像
 指数関数を利用したこの作業を、屋敷の出現組み合わせ表に適用します。確率がとても低い組み合わせは丸めこまれて$0$になってしまいました。
画像
ソフトマックスと呼ばれるこの計算を、再び数式で表しておきます。
画像
RBMの学習
Contrastive Divergence法
これまでA~Eの組み合わせを考えてきましたが、仮にグラフ中の全ての重みが$0$だとすると、全ての組み合わせが同じ確率で発生してしまいます。(簡略化のために数値ではなく黒いバーで確率を表しています。)
画像
しかし、現実にはA~Cの出現回数や組み合わせに規則性がありました。私たちは、この実際のA~Cの出現データに基づく確率分布を得たいのです。
画像
そこで、全ての組み合わせの発生確率が等しい状態からスタートして、
- まず、実際の出現データに基づいて、そのA~Cの組み合わせが含まれるような、A~Eの組み合わせの確率を少し増加させます。
画像
画像
この2つのステップを繰り返せば、最終的に所望の確率分布が得られるのではないでしょうか。
画像
この計算を、数式で表しておきます。
画像
確率を増減させる方法(Learning Rate)
先ほどのステップ1.と2.で確率を「増やす」「減らす」という表現を用いましたが、実際に何をしているかというと、その個体にまつわる全ての重みを少しだけ加算・減算します。この量をLearning Rateと呼びます。
画像
Contrastive Divergence法 + ギブス・サンプリング
さて、屋敷の例では組み合わせが$2^5=32$通りで済みましたが、ノードの数が増えるとその組み合わせは2の累乗で増え、上記Contrastive Divergence法(以下、CD法)の計算量が膨大になってしまいます。例えばVisible Layerが$200$ノード、Hidden Layerが$100$ノードの場合は$2^{300}$通りという途方もない数になります。
そこで、CD法に、ギブス・サンプリングの要素を加えます。
- 実際に起きたA~Cの組み合わせが含まれるようなA~Eの組み合わせからランダムに1つ選び、その確率を少し増加させます。
- 1.を含む全ての組み合わせからランダムに1つ選び、その確率を少し減少させます。
これを繰り返すことで、最終的には実際のデータと傾向が一致するような確率分布が得られるということです。
画像
しかし、1.を本当にランダムに選んだ場合は、このような結果にはならないはずです。元データには「AとCが登場した」「Bが登場した」という情報しかなく、AC, ACD, ACE, ACDEならびにB, BD, BE, BDEのどの場合なのかは不明なため、それぞれの確率が等しくなり、画像のようにACDならびにBEが突出するような結果にはなりません。そこで、RBMの隠れ層を考慮した結果になるべく、手順をさらに改良します。
- 実際に起きたA~Cの組み合わせが含まれるようなA~Eの組み合わせから条件付きでランダムに1つ選び、その確率を少し増加させる。
- 1.を含む全ての組み合わせから完全にランダムに1つ選び、その確率を少し減少させる。
次の節で1.を、その次の章で2.を、詳しく説明します。
1. Picking Random Samples with Conditions: 条件付きランダムランプリング
ここで、今は学習の途中の状態で、次に「AishaとCameronが現れ、Betoは表れなかった」というデータを反映させたい、という場合を考えます。
Visible LayerとHidden Layerのそれぞれのノードは互いに独立なので、今注目しているノード(庭先に現れたAishaとCameron)以外のノードは無視できます。また、人間の出現確率の重みづけも無視します。このときのスコアを計算すると、
$0.9+0.5-0.4=1$
となります。シグモイド関数を用いてこれを$0$から$1$の間の確率に変換すると、$0.73$、つまり現段階でAishaとCameronが揃ったときにDescartesが現れている確率は$73%$と求められます。
画像
同様にAishaとCameronが揃ったときにEulerが現れている確率は$31%$となります。
画像
(補足)ソフトマックスでは指数関数で変換してから総和で割って確率に変換していましたが、シグモイド関数は総和が分からなくても大体の確率に変換できるというイメージを持っています。
(補足)これにより、CD法+ギブスサンプリングのステップ1.では、下記の確率に応じてAC, ACD, ACE, ACDEのどれかが選ばれることになります。AishaもCameronも犬好きの猫嫌いなので、学習が妥当に進んでいることが理解できます。
確率 | |
---|---|
AC | $(1-0.73)*(1-0.31)=0.1863$ |
ACD | $0.73*(1-0.31)=0.5037$ |
ACE | $(1-0.73)*0.31=0.0837$ |
ACDE | $0.73*0.31=0.2263$ |
画像
2. Picking Completely Random Samples: ランダムサンプリング
次に、CD法+ギブスサンプリングのステップ2.で、全ての組み合わせの中から完全にランダムに1つ選択する方法です。学習の途中、ステップ1.でACDを増加させたような状況を考えます。
ここから、複数回ランダムにジャンプしてたどり着いた組み合わせの確率を、減少させます。このジャンプの回数は事前に定義するもので、コンピュータの演算能力の影響も受けます。
ジャンプの道順は、ACDの組み合わせからスタートし、Hidden Layerが同じくDである組み合わせの中から組み合わせをランダムに1つ(例: BCD)選び、ジャンプします。次はVisible LayerがBCDと同じくBCである組み合わせの中から組み合わせをランダムに1つ選び、ジャンプします。これを繰り返し、定義した回数分ジャンプしてたどり着いた組み合わせの発生確率を減少させます。
画像
まとめ
実際のデータに基づきながら、Hidden Layerと重みづけを通して、考え得る全ての組み合わせの確率分布をRBMで表現できるようにしました。構築したRBMから、新たにデータを生成することも可能です。 といった内容だと理解しました。