概要
PixelRNNのRow LSTMとDiagonal BiLSTMについての忘備録
PixelRNNとは
論文名: Pixel Recurrent Neural Networks
URL: https://arxiv.org/abs/1601.06759
発表日: 2016-01-25
Row LSTMの説明
フローチャート
補足
- input2stateのinputは画像ではなく、画像から抽出した特徴マップなので注意
- 推論時は左上の画素から、チャネルの順に作る
- MaskAでは、まだできてないものは見れないので、画素の右下以降とまだできてないチャネルはマスク
- Kisでは、すでにチャネルは全部できているので、画素の右下以降のマスクだけして、チャネルのマスクはしない
- 1行前の隠れ状態は全部できているのでマスクはいらない
- 普通のLSTMのつもりで読むと、隠れ状態を空間的に畳み込む(Kss)というのに気づけず、理解不能になりがち
- これがわかれば、Diagonal BiLSTMも理解できる
- Kisでは畳み込みがなくなり、チャネルを4hにするだけ(下記隠れ状態の畳み込みで、左上すべてをカバーする)
- Kssでは、左と上の特徴マップを畳み込む
- 同様に右上からも順番にやる
(違っていたらどなたかご指摘お願いいたします。)