#はじめに
画像からの文字の抽出をやってみたいと思ってたので
#簡単
とにかく試してみたい方向きに
ldiqual/tesseract-ios
ReadMe.mdが丁寧で分かりやすかった。64bit対応ができるかは要確認
https://github.com/ldiqual/tesseract-ios
http://lois.di-qual.net/blog/install-and-use-tesseract-on-ios-with-tesseract-ios/
gali8/Tesseract-OCR-iOS
上記のコードに手をいれて64bit対応したみたい
https://github.com/gali8/Tesseract-OCR-iOS
カメラで撮影してまでテンプレで入っているので
実機転送まで出来るiOSの開発者ライセンスを持っている方には使いやすい
##定番はまり
言語対応のため追加したjpn.traineddataが有効にならない
→フォルダリファレンスじゃなくて、グループ指定してた
→なおした。動かない
→シミュレータのアプリ本体を削除忘れ
→消した。うごいたー
#応用
##iOS用にビルド
※理解が進んだら追記します。
SDKのアップデートが確実な時に書いてますので、多少変わるような気がします。
http://lois.di-qual.net/blog/compile-tesseract-for-ios-sdk-6-0/
##認識率をあげる
公式
https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3
Tesseract-OCRの学習
http://hadashi-gensan.hatenablog.com/entry/2014/01/15/135316
日本語練習中
http://d.hatena.ne.jp/uakira/20140710
#さいごに
ざっと実装してみたところ、認識率があまりよろしくなく
原因としては、googleからダウンロードした日本語データだけでは実用に耐えない印象です。
認識率をあげるためにはデータの収集方法が別途必要。