Unsupervised Domain Adaptation with Residual Transfer Networks 要約

読んだ論文

Unsupervised Domain Adaptation with Residual Transfer Networks
Mingsheng Long, Han Zhu, Jianmin Wang, Michael I. Jordan
https://arxiv.org/abs/1602.04433?context=cs
上記の論文を読んだので簡単にまとめます．NIPS2016で発表された論文で210引用されている良論文．ドメイン適応は人多り読んだかなと思ったのですが，これも面白そうということで読むことにしました．

3行4行でまとめる

ソースドメインとターゲットドメインの分類器の差異をResidual Functionで表現する教師なしのドメイン適応手法を提案している．
モデルの前半部分はMMDでソースターゲット間で似た表現となるように学習する．
モデル後半は$f_s=f_t+\Delta f$を仮定し，$\Delta f$をResidual Functionで実装している．
要するに前半で共通特徴をとってターゲットに最適化し，そこからの差分でソースを分類できるように最適化する感じ．

提案手法

提案モデル

Feature Adaption

CNNの最後にbottleneck layer（$f_{cb}$）の導入により特徴量の次元数を削減する
ラベル付きのソースドメインデータセットでFine-tuneし，ソースターゲット間の特徴分布が類似するように新しい特徴表現を学習させる（$f_{cb}, f_{cc}$両方で）．
最終的に，Feature adaptionを，式(2)で示されるMMD（Maximum Mean Discrepancy）の最小化によって実施する（MMDは10日目のDomain Separation Networksでも出てきた，DANNと同様に2つの特徴表現の距離を縮めるためによく使われる手法）．今回カーネルはガウシアンカーネル．
DAN¹では複数回MMDを用いて複数層の特徴表現を適応させているが，提案手法では最初にそれらを融合し，融合した層を適応させている．

Classifier Adaption　（括弧文は私なりの解釈）

Feature Adaptionを行ったところで，（ドメイン間共通の特徴抽出が見込めるだけであり，）ソースドメイン分類器$f_s(x)$と，ターゲットドメイン分類器$f_t(x)$が異なる（$f_s(x) \neq f_t(x)$）以上，何かしらの対応を行わなければならない．
そこで，本稿では$f_s(x),f_t(x)$は微小な差（$\Delta f(x)$）であると仮定する．
従来はこれを$f_t(x)=f_s(x)+\Delta f(x)$と表現していたが，この場合$\Delta f(x)$の訓練にターゲット側のラベルが必要となる．
- この点をどうするのかが教師なしドメイン適応のチャレンジングなところ．
これをResNetで用いられているResidual Functionを参考に，ショートカットゲートでFigure1のように表現することで解決する．
- 式的には$f_s(x)=f_t(x)+\Delta f(x)$（ソース側がターゲット側＋差分で表現される）
ただ，このままでは$f_t(x)$がターゲット側の特性を学習しないので，Entropy Minimization Principle²（式(4)）により$f_t(x)$を直接ターゲットドメインの領域に対応させている．
- $min_{f_t}\frac{1}{n_t}\sum_{i=1}^{n_t}H(f_t(x_i^t))$....(4)
- H(・)はエントロピー関数で，$H(f_t(x_i^t))=-\sum_{j=1}^{c}f_j^t(x_i^t)\log f_j^t(x_i^t)$
- ここでcはクラス数，$f_j^t(x_i^t)$は$x_i^t$がjに予測される確率

以上を踏まえて，最終的にRTN全体の損失関数は次式で表される．
$min_{f_S=f_T+\Delta f}\frac{1}{n_s}\sum_{i=1}^{n_s}L(f_s(x_i^s), y_i^s)+\frac{\gamma}{n_t}\sum_{i=1}^{n_t}H(f_t(x_i^t))+\lambda D_L(D_s,D_t)$

評価実験

Officeデータセット2種類でやって，片方がこんな感じ．

まとめ

教師なしのドメイン適応問題において，Classifier Adaptionな手法をResidual Functionな方法で実装した．
重要なのは3つの損失関数で，特徴をMMDで適応させる式(2)，ターゲットドメインをエントロピー最小化で訓練する式(4)，あとは普通にソースドメインのクロスエントロピーである．

所管

相変わらず論文選定に時間をとられて1時間半くらい，読んでまとめるのに1時間半くらいでした．腰が痛いです．恐らくこの提案手法は，MMDの部分をDANNにしてもよいし，ターゲットドメインの訓練用ロスを$x_t$を再構築するReconstructionLossにしてもよさそうです（よくなるかは別として）．

M. Long, Y. Cao, J. Wang, and M. I. Jordan. Learning transferable features with deep adaptation networks.InICML, 2015 ↩
Y. Grandvalet and Y. Bengio. Semi-supervised learning by entropy minimization. InNIPS, 2004. ↩

16日目: Unsupervised Domain Adaptation with Residual Transfer Networks