- Tensorflowの公開モデルの中に入っていたAttention OCRという、道端の看板に書かれている文字を画像から読み取るOCRを動かしてみたのでメモです
Attention OCR
- このモデルの学習データはFSNSというフランスの道路名標識のデータセットの利用を想定しています
- このデータセットでは下記のように4枚の同じ看板を別角度から撮影した画像で構成されているのが特徴的です
- 論文によると、4枚の画像をCNNに入力して組み合わせた後、RNNへの入力として、文字読み取りの精度を上げる仕組みになっているみたいです
- ちなみにこの記事に下記の記載があり、StreetViewの画像からGoogleMapの品質向上にフィードバックするような用途に使っているみたいです
ディープラーニングモデルは、新しいStreet Viewイメージに対する自動的なラベル付け、命名規則に一致させるためのテキストの正規化、データ分析とは無関係な余剰テキストの無視、といったことも可能にした。これにより、街路名や住所が分からなくても、画像から直接、新たな住所を作成することが可能になる。例えばStreet View車両が新たに建設された道路を通る場合、このモデルによって、キャプチャイメージを分析して道路の名称と番号を抽出することで、GoogleMap上にそのアドレスを生成し、配置することが可能になるのだ。
- はっきりこのライブラリのことだとは書いてないですが、多分これのことだと思われます
- Python 2.7.14
- Tensorflow 1.4.1
- ariaを使って学習データをダウンロードします
- ariaはubuntuなら
apt-get install -y aria2
で入れられます - 相当容量があるので數十分〜数時間は待つことになります
$ cd research/attention_ocr/python/datasets
$ aria2c -c -j 20 -i ../../../street/python/fsns_urls.txt
- 普通に学習を実施します
- batchサイズはデフォルトで32なのですが、めちゃくちゃにメモリを食ってOOM Killer的なエラーが出てしまうので下げてます
$ python train.py --batch_size=8
- ちゃんと動いていると下記のようにlossが下がっていく様子をログから確認できます
- 12時間ほど学習させたところ、loss値は30位まで落ちました
- 学習を終えたいタイミングでCtrl+cで止めます。学習済みモデルは
- READMEにはinferenceのコードは提供していないと書いてあるんですが、ソースをよく見るとdemo_inference.pyというのが置いてあるのを発見しました
- あくまでデモ用だと強く書いてありますが、とりあえず今回はこれで動かしてみます。
- 画像は上記の通り4枚の写真が横に連なっている物を準備します
- サイズは600x150固定なのでサイズが異なっている場合はImageMagickだとかでリサイズしてから入力させます
- またファイル名には必ず数字を含めて、そこを
convert -scale 600x150! /tmp/impasse.png /tmp/impasse0.jpg
python demo_inference.py --batch_size=1 --checkpoint=/tmp/attention_ocr/train/model.ckpt-209056 --image_path_pattern=/tmp/impasse%d.jpg
予測結果(バッチサイズ:4, 20万ステップ)
Predicted strings:
Au de Wa de Wa de
Predicted strings:
Impas du J Jwa Imp Imaint Avent du du
Predicted strings:
Rue du du du du du du Avara du du du
予測結果(バッチサイズ:32, 26万ステップ)
- 後日、もっといいGPU(Geforce TITAN X)で数日かけて学習し直しました
- GPUのメモリが増えたのでバッチサイズを標準の32に上げています
Predicted strings:
Ale Ale Ale Al A Al Ana—— Ale Ale A A
Predicted strings:
Impasse Anporgeste————4 Ro—de—Anporge
Predicted strings:
Rue Antaue de Antant—Aronte
- なんか微妙な結果でしたが一旦終わります
- ファインチューニング/転移学習も試したいなあ