More than 5 years have passed since last update.

画像からのテキスト抽出：tesseract-ocr

Last updated at 2014-08-26Posted at 2014-08-25

#はじめに
画像からの文字の抽出をやってみたいと思ってたので

#簡単
とにかく試してみたい方向きに

ldiqual/tesseract-ios
ReadMe.mdが丁寧で分かりやすかった。64bit対応ができるかは要確認
https://github.com/ldiqual/tesseract-ios
http://lois.di-qual.net/blog/install-and-use-tesseract-on-ios-with-tesseract-ios/

gali8/Tesseract-OCR-iOS
上記のコードに手をいれて64bit対応したみたい
https://github.com/gali8/Tesseract-OCR-iOS

カメラで撮影してまでテンプレで入っているので
実機転送まで出来るiOSの開発者ライセンスを持っている方には使いやすい

##定番はまり
言語対応のため追加したjpn.traineddataが有効にならない
→フォルダリファレンスじゃなくて、グループ指定してた
→なおした。動かない
→シミュレータのアプリ本体を削除忘れ
→消した。うごいたー

#応用
##iOS用にビルド
※理解が進んだら追記します。
SDKのアップデートが確実な時に書いてますので、多少変わるような気がします。
http://lois.di-qual.net/blog/compile-tesseract-for-ios-sdk-6-0/

Tesseract-OCRの学習
http://hadashi-gensan.hatenablog.com/entry/2014/01/15/135316

日本語練習中
http://d.hatena.ne.jp/uakira/20140710

#さいごに
ざっと実装してみたところ、認識率があまりよろしくなく
原因としては、googleからダウンロードした日本語データだけでは実用に耐えない印象です。
認識率をあげるためにはデータの収集方法が別途必要。