More than 5 years have passed since last update.

画像オートエンコーダの学習におけるロスの選び方の違い後編（MIT Places2の場合）

Last updated at 2017-06-19Posted at 2017-06-19

課題のおさらい

ディープラーニングの画像オートエンコーダにおいて出力のロスを計算する方法がいろいろな実装によって異なるので実際どれくらい違うのかを試そうというお話。以下のそれぞれのロスの取り方でどれくらい学習の傾向が異なるのかを試します。

前回はデータセットとして CelebA を使用しました。今回はCelebAよりも個々の画像の違いが大きい Places2 を使用します。

Places2の256x256のTrainイメージを128x128にリサイズしたものを学習データとしています。

学習中のロスの推移です。全体で見るとあまり変わらない印象。

中盤から後半にかけての部分の拡大表示。傾向としてバイナリクロスエントロピーよりも二乗誤差の方が常に下で推移している。画素で取るか、サンプルで取るか、ミニバッチで取るかはあまり影響しない。

チャートは二乗誤差の平均値でプロットしているため二乗誤差のロスが有利になっていて、バイナリクロスエントロピーで比較すると逆転するのかもしれない。

ロスの種類は左から以下の順。

今回の調査には関係ないがCelebAよりも分散が大きいので見た目の再構成がうまくいっていない。こういう時にエンコーダ、中間特徴、デコーダのどこをどうすれば十分になるのかの勘どころもよく分かっていない。

前回に引き続いて実験して、前回同様に「あまり気にしなくていいんじゃないか」という感想になった。

モデルが表現可能な分散を増やして（ネットワークのチャネル数や次元数を大きくして）ピクセル単位でほぼ一致するところまで学習を進めようとしたときにどれだけ影響が出るのかわからないしGAN系列やVAE系列でどうなるかもよくわからない。

結論「あんま変わらないけど最終的には違いが出るかも知れないけどよくわからない！」