More than 5 years have passed since last update.

論文まとめ：Gated Recurrent Convolutional Neural Network for OCR

Last updated at 2018-02-12Posted at 2018-02-12

はじめに

NIPS2017から、J. Wang らの Gated Recurrent Convolutional Neural Network for OCR をまとめてみた。

NIPS2017の論文ページはこちら。
http://papers.nips.cc/paper/6637-gated-recurrent-convolution-neural-network-for-ocr

著者らのコードはこちら。
https://github.com/Jianfeng1991/GRCNN-for-OCR

概要

OCRタスクのモデル
RCNN(recurrent convolutional neural network)に gate を加えた GRCNN(Gated RCNN)を用いた
この gate はRCL(recurrent convolution layer)における context modulation を制御し、feed-forwardな情報とrecurrentな情報とを調整する。
シーケンス・モデルとしてはBLSTM(Bidirectional LSTM)を用いる
このGRCNN＋BLSTMなモデルで既存の性能を上回った

GRCNNの中身

RCNN

RCNNはこちらの論文
M. Liang, et. al 'Recurrent Convolutional Neural Network for Object Recognition'
https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Liang_Recurrent_Convolutional_Neural_2015_CVPR_paper.pdf
などで発表された仕組みで、RecurrentにConvolutionを組み合わせたもの。

前の層からの出力を $u(t)$、前の時刻の隠れ層からの出力を $x(t-1)$ とすると一般的なRNNは

x(t) = \mathcal{F} (u(t), x(t-1), \theta )

ここで $\mathcal{F}$ はReLUなどの非線形な活性化関数、$\theta $ はパラメータ。RCNNの場合は

x(t) = \mathcal{F} ((w^f \ast u(t), w^r \ast x(t-1))

となる。ここで $\ast$ は convolution。重みがフィルタになって convolution するだけ。

GRCNN

T=2の時の gated recurrent convolution layer の模式図は以下。

右側の gate な部分がなければ通常の RCNN。

この gate の部分は

G(t) = \begin{cases}
    0 & t=0 \\
    sigmoid(BN(w^f_g \ast u(t)) + BN(w^r_g \ast x(t-1))) & t>0
  \end{cases}

となっていて、LSTMの gate に似ている。BN は batch normalizationで、これが特徴的。

G(t) = \begin{cases}
    ReLU(BN(w^f \ast u(t)) & t=0 \\
    ReLU(BN(w^f \ast u(t)) + BN(BN(w^r \ast x(t-1))\odot G(t))) & t>0
  \end{cases}

$\odot$ はHadamard積。イメージとしてはLSTMのhidden unitに対するgateだけがある形に似ている。ただ、決定的に違うのは、conv-LSTMは動画などのシーケンシャルなフレームを１つずつ１時刻に入力するが、このこの仕組みは１つの画像をそれぞれのタイムステップそれぞれに入力する。

また注意点としては、Batch normalizationのパラメータを別の時刻と共有しないこと。