概要
パンハウスゼミのサマリです。
テーマ : DNNの情報量に関する6本。
スライドリンク :https://www.slideshare.net/HitoshiNakanishi/20191027-bread-house-seminar-187375460
発表者 : 37
1本目
題名 : Deep Variational Information Bottleneck
Paperリンク : https://arxiv.org/abs/1612.00410
新規性 :VIBを確立した
データXから良い表現Zを抽出する Information Bottleneck(1999)をDNNに適用した。
X→Z→Yの際、情報量Iについて
I(Z, X):小さくしたい:小さく圧縮したいから。大きいと過学習だといえる。
I(Z, Y):大きくしたい:沢山復元したいから。
「I(Z, Y) - β*I(Z, X)」 を大きくしよう!
βが小さいと「I(Z, Y) - β*I(Z, X)」が大きくなり、嬉しい
↑これVAEでは?
実験:3層NN(βVAEの最後の層を分類にしたもの)でMNIST。良い結果。
今後の展開:
①オープンユニバース問題(世の中にラベリングするものが多すぎてすべてラベリングできない問題。OODはOODとして判別したい)
②時系列問題
2本目
題名 : Information Dropout: Learning Optimal Representations Through Noisy Computation
Paperリンク : https://arxiv.org/abs/1611.01353
新規性 : Information Dropoutを提案(VIBをDropoutで再現) + TC項を追加
1本目はVIBをVAEの観点から考えたが、本論文はDropoutの観点から考える。
VAEではzに正規分布を仮定したが、確率εでDropoutするモデルを考えたら、数学的にDropoutと等価であると分かった。
さらに、TC項(Total Correlation)を考える。TC項が小さいとdisentangleと言える。
disentangle : 変数のもつれが解けていること
βが大きいとTC項を小さくすることができる。
論文1本目はβが小さいと嬉しかったが、本論文ではβは大きい方が嬉しい
→要するに、大きすぎても小さすぎてもダメ
3本目
題名 : Emergence of Invariance and Disentanglement in Deep Representations
Paperリンク : https://arxiv.org/abs/1706.01350
新規性 : IB Lagrangian の良さの理由を考えた
「情報抽出の良さ」の物差しは4種類
①情報の十分性(sufficient) = I(Z, X)とI(Z, Y)を同じにしたい
②最小性(minimality) = 復元抽出にいらない情報は小さくしたい。①とトレードオフ
③noise頑健性
④もつれがない状態(disentanglement)
IB Lagrangian は交差エントロピー項 + β*正則化項。大きい方がいい。
交差エントロピー項を、
①intrinsic error : 問題固有の誤差。どうしようもない。
②sufficiency : データセットが持つ情報量。大きい方が嬉しい。
③efficiency : 近似のよさ。大きい方が嬉しい。
④負の過学習項 : 小さい方が嬉しい。
に分けて考える。
IB Lagrangian は十分性と最小性の達成を持つ。
最小性がある時、めっちゃ圧縮してるということなので、noise頑健性もある。
VIBがうまく行ったのは、過学習項を上からバウンドしたから。
更に、ヘシアンで上からバウンドできる。
ヘシアンが小さいと情報量は小さくなり過学習しない。
※ヘシアンは二回偏微分行列
4本目
題名 : Where is the Informaton in a Deep Neural Network?
Paperリンク : https://arxiv.org/abs/1905.12213
新規性 : DNNの情報はどこにあるのかを考えた。学習過程でFIMを追うことで、新規の知識獲得 + 情報の圧縮 (compression) が繰り返される事を確認した。
重みの持つ情報量は問題の複雑さに依存する。
データセットについて平均を取ってたのがI(w;D)、つまりシャノンの相互情報量。
正規分布を仮定するとヘシアンとフィッシャーが似るので重さの情報量をヘシアンで書けない。
※基本ヘシアンは二回微分なのでdeepでは計算できない。
しかしフィッシャーなら計算できる!
そもそも情報とは何か?→摂動が起こった時のエラーの起きなさ。ちゃんと分類できる力。
5本目
題名 : CRITICAL LEARNING PERIODS IN DEEP NETWORKS
Paperリンク : https://arxiv.org/abs/1711.08856
モデル自体が情報を持ってると学習のよさは減る。
だから最初に学んだことのがよく反映される。
クソデータは最初の方で入れよう。
6本目
題名 : TASK2VEC: Task Embedding for Meta-Learning
Paperリンク : https://arxiv.org/abs/1902.03545
分類問題①で学習させた重みで分類問題②をファインチューニングする時、問題①と②が「近い」方が少ないエポックで学習できる。
問題の近さをベクトル化できて嬉しい!
例:「犬の分類」は、「鳥の分類で学習した重み」より「猫の分類で学習した重み」を使ってファインチューニングする方が速く学習できる。
→「犬と鳥」より「犬と猫」の方が近いと言える。