Exponential expressivity in deep neural networks through transient chaos, NIPS2016
deep NNにおける信号伝搬(feed-forward等)を、高次元カオスにおける平均場理論とリーマン幾何を組合せる事で解析する。
従来、実験的にある特定の関数はdeep NNでは多項式オーダーのパラメータ数で表現出来るのに対し、shallow NNでは指数オーダーのパラメータ数が必要な事が知られている。
この事が一般の関数に関しても言えるかどうかは従来研究されており、特定の関数、適用範囲に限定して確かめられている。
本論ではより一般的なフレームワークとして、任意の非線形関数、NN構造に適用可能で、自然なfunction complexityの測度を考える。
そのためのツールとしてRiemannian geometryとdynamical mean field theoryを用いる。
カオス理論の文脈で相転移を解析すると、各層における計算時の分散に応じて、ある2つのデータ点間の距離が近づいていくか、離れていくかが決まる。
Riemannian geometryの文脈で考えると、deep NNは層方向に信号伝搬していくに連れ、どのようにデータ多様体の長さやその曲率が変化するかを解析する事がわかる。
その結果、非線形活性化関数(シグモイド)を利用している層伝搬では、多様体の長さは単調増加していくが、曲率は減少しない事が分かった。
曲率の変化は相転移におけるカオス層に入り込んだか否かで決まり、カオス層の場合は層伝搬に従い曲率は大きくなり、隠れ層の多様体構造は複雑化する。
この多様体の長さ、曲率発展に伴うNN構造の複雑化により、最終的にdeep NNは複雑な関数を表現出来る事を可能にする。
対称的に、shallow NNでは、その多様体の長さはあるオーダーでバウンドされ、その表現力は、たとえ層の幅を大きくしたとしても改善幅は限定的である事が分かった。
Full Resolution Image Compression with Recurrent Neural Networks
RNNに基づいた画像圧縮手法を提案する。
この手法は圧縮率を変える事が可能で、そのために再学習を必要としない。
ネットワークはRNNがベースのencoder、バイナリ変換を行いメモリ可能な形へ変換するbinarizar、RNNがベースのdecoderが存在する。
このパイプラインに対し、再構成後の出力画像と入力画像の間の誤差を計算し、それに対して同様のパイプラインを繰り返し適用する。
この時の各ステップの誤差値のL1和値を損失関数として最適化する事になる。
このプロセスは例えば1ステップしか適用しない場合でも1/192圧縮を実現する。
また得られるバイナリコードはエントロピー的に最適ではないため、entropy codingをさらに適用する事で圧縮率を向上させる。
entropy codingはPixelRNNの文脈を用いてNN的に実装される。
これはraster-scanで逐次的に入力を得る時、今までのバイナリコードをLSTM構造で用いて逐次的にbinary-codeを予測し、arithmeticに計算されるentropy conderとのクロスエントロピーを元に必要なコード長を学習する。
Deep Directed Generative Models with Energy-Based Probability Estimation
エネルギーモデルに基づいたDNNは正規化係数の計算においてintractableでありMCMCに基づく近似計算を必要とする。
しかしながらMCMCは多峰分布におけるサンプリングを苦手としている。
代わりに本論ではDNNに基づく生成モデルによるサンプリングを提案し、これは決定的にiidな一様分布から対象とする分布へtransformを行う。
これによりMCMCで要求される長いシーケンスのサンプリングを回避する事が出来る。
結果的に学習されるモデルは2つの互いに双対なモデルとなる。
1つは元々扱っているエネルギーモデルであり、生成モデルから得られるサンプルを元に最尤推定が行われる。
もう1つはサンプリングに用いられる生成モデルあり、これはGANと同様の枠組みで学習される。
つまりエネルギーモデルはdiscriminatorとして捉え、エネルギーが最小化されるべき訓練サンプルに対するエネルギーは低く、生成モデルより得られるサンプルはfakeとしてエネルギーを高くするような解釈をする。
これに対して、生成モデルはエネルギーモデルを騙すためにエネルギーが低くなるようなサンプル、つまり対象分布を良く表すようなサンプルが得られる事になる。