機械学習論文読みメモ_98 #機械学習

Deep Feature Interpolation for Image Content Changes, CVPR2017
Deep feature interpolation (DFI)と呼ばれるhigh resolutionな画像遷移手法を提案する．
この手法ではpretrainされたCNNの特徴空間上での線形補間を用いて遷移が行われる．
簡単な手法にもかかわらず，この手法は画像のセマンティクスに関する遷移を可能にする．
DFIは特別の構造のネットワークや学習を必要とせずこれを可能とする．
この手法をベースラインとして用いる事でどのような画像遷移のタスクが真の
challengingなタスクであるかを知る指標になる．

Deep Variational Inference Without Pixel-Wise Reconstruction
Variational autoencoder(VAE)は一般的なCVに関する生成モデルの一つである．
従来提案されてきたVAEの改善手法は主に事後分布の近似精度の向上や柔軟性の向上に関するものであった．
しかし，いまだ問題のあるpixel-wise reconstructionをより良いものへ置き換える研究はあまりなされていない．
本論ではreal-valued non-volume preserving transformations (real NVP)を用いる事で，潜在変数で条件つけられた
データの確率分布を正確に計算出来るようにした．
Real NVPはヤコビアンが簡単に計算出来るような逆変換が可能な非線形変換を用いる．
これにより，潜在変数空間からデータ空間への正確の逆変換が可能になり，正確なサンプリングを
実現する．
すなわち正確なVAE生成モデルの条件付き確率を用いた最適化を行えるため，従来の誤差に標準分布を仮定して用いるpixel-levelの再構成誤差に基づいた計算と比較して正確の誤差計算，最適化が行えるようになる．

RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation
Semantic segmentationモデルはCNNがベースとなって設計されてきたが，
そのためにsubsampling(down sampling)が頻繁に発生し特徴抽出の過程で画像の解像度が下がってしまう
問題があった．
本論ではrefinenetと呼ばれるマルチパスを持つネットワークを提案する．
このモデルは複数のdown sampling過程の間で得られる特徴を陽に用い，long rangeのresidual connectionと組み合わせる事で高解像度の予測を高性能に行えるようにした．
このモデルでは，低解像度だが抽象化された深い層の特徴に対して，高解像度だが低いレベルの特徴を持つ浅い層の特徴を用いる事で高解像度化(refine)を可能にしている．