More than 5 years have passed since last update.

chainerでCommon Representation Learningをやってみる

Last updated at 2017-04-27Posted at 2017-03-18

概要

KDD2016 workshopに出てる， IBM Research, Indiaの人の「[Joint multi-modal representations for e-commerce catalog search driven by visual attributes] (https://kddfashion2016.mybluemix.net/kddfashion_finalSubmissions/Joint%20multi-modal%20representations%20for%20e-commerce%20catalog%20search%20driven%20by%20visual%20attributes.pdf) 」をchainerで実装しようというものです．

論文の手法の元論文はこちらです．
この論文の本実装は，Theanoで書かれています．

論文の内容は，ざっくり読んだ感じ，テキストと画像がペアで与えられたとき，その共通空間をNeural Netを使って求めて(手法名は「Correlational Neural Net, 略してCorrNet」)検索エンジンに役立てようというなものになってます．

2つの異なるモーダルの共通空間を求める場合，CCAを使うのが一般的かと思いますが，実用上scikit-learnのCCAはデータサイズが大きくなるととたんに訓練に時間がかる＆MemoryErrorで使い物にならないこともありますし，今回はサクッとchainerで実装してみました．

python3で，jupyter notebookで書いたコードは**こちら**です．

相関係数を共通空間で大きくなるように学習させるのがポイントみたいです．

イメージ図

ロス関数は，2つのモーダルが与えられたとき両方復元する際の損失，片方のモーダルが与えられたとき両方復元する際の損失，そして隠れ層での相関が高くなるようにする損失で構成されてます．

簡単に試してみたかったのでMNIST使って，28x28の画像と，one-hot-vector形式にしたラベル情報の共通空間を求めました．

今後違うデータでも試すつもりです．

うまく復元できてるようです

0と8の中間のような画像がちゃんと生成されております．

ちゃんと隠れ層で相関が高くなるように学習が進んでおります！

ラベル情報からだけでも復元できるようです！

いずれにせよ，chainer，やはりTheanoよりだいぶ簡単に書けてログも出力できて便利ですね^^