0

Pixel Recurrent Neural Networksのメモ

Last updated at 2025-04-13Posted at 2025-04-13

概要

PixelRNNのRow LSTMとDiagonal BiLSTMについての忘備録

PixelRNNとは

論文名: Pixel Recurrent Neural Networks
URL: https://arxiv.org/abs/1601.06759
発表日: 2016-01-25

Row LSTMの説明

フローチャート

補足

input2stateのinputは画像ではなく、画像から抽出した特徴マップなので注意
推論時は左上の画素から、チャネルの順に作る
- MaskAでは、まだできてないものは見れないので、画素の右下以降とまだできてないチャネルはマスク
- Kisでは、すでにチャネルは全部できているので、画素の右下以降のマスクだけして、チャネルのマスクはしない
- 1行前の隠れ状態は全部できているのでマスクはいらない
普通のLSTMのつもりで読むと、隠れ状態を空間的に畳み込む(Kss)というのに気づけず、理解不能になりがち
これがわかれば、Diagonal BiLSTMも理解できる
- Kisでは畳み込みがなくなり、チャネルを4hにするだけ(下記隠れ状態の畳み込みで、左上すべてをカバーする)
- Kssでは、左と上の特徴マップを畳み込む
- 同様に右上からも順番にやる

（違っていたらどなたかご指摘お願いいたします。）

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0