More than 5 years have passed since last update.

【論文シリーズ】画像・文字混合データをボルツマンマシンで学習する

Posted at 2016-06-14

原文

DBMを用いた多形態データの学習(Multimodal Learning with Deep Boltzmann Machines)
Nitish Srivastava (2012)

1. 要約／背景

画像と文字の混合データにDBMを適用したら、良好な結果を得られた。
テキストと画像では抽出データの型が異なるため、もともと併用が難しい

テキスト→語数カウントベクトルであり、成分は離散的かつスパースである。
画像→ピクセルに分割し、各点の輝度をベクトルにまとめる。

SVMとLDA→混合データの認識に使われるが、教師データがない場合、特徴抽出ができない…

混合データによる学習イメージを下に示す。
画像をインプットした時に、意味(タグ登録してある)を選択識別する感じ。

2. 骨子の理論

分析過程の模式図を以下に示す。
ポイントは、画像の特徴とテキストの特徴をそれぞれ別のDBMで学習させることである。
その上で、統合DBMで総合的な特徴抽出をする。

画像DBMとテキストDBMを統合する式は次のようになる。
(それぞれのボルツマン分布の定式化に特別な特徴はない)

P({\bf v}^m, {\bf v}^t; \theta) = \sum_{{\bf h}_m^{(2)}, {\bf h}_t^{(2)}, {\bf h}^{(3)}}P({\bf h}_m^{(2)}, {\bf h}_t^{(2)}, {\bf h}^{(3)})\Big( \sum_{{\bf h}_m^{(1)}}P({\bf v}_m, {\bf h}_m^{(1)}, {\bf h}_m^{(2)})\Big)\Big( \sum_{{\bf h}_t^{(1)}}P({\bf v}_t, {\bf h}_t^{(1)}, {\bf h}_t^{(2)})\Big)

積形式において、
第一項：2つの隠れ変数の統合層における同時分布
第二項：画像DBMにおける変数の同時分布
第三項：テキストDBMにおける変数の同時分布
すなわち、以上のファクターの積が、Multimodalケースの可視変数のボルツマン分布になる。
計算テクニックとしては、MCMCと平均場近似を併用した。

3. モデル適用例

1000枚のテキスト画像混合データを用意し、38クラス分類を学習させる。
適合判定関数に、コサイン類似関数を用いる。
5000枚のテストデータを元に行った試験結果が下のようになる；

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up