LoginSignup
33
34

More than 5 years have passed since last update.

画像からのテキスト抽出:tesseract-ocr

Last updated at Posted at 2014-08-25

はじめに

画像からの文字の抽出をやってみたいと思ってたので

簡単

とにかく試してみたい方向きに

ldiqual/tesseract-ios
ReadMe.mdが丁寧で分かりやすかった。64bit対応ができるかは要確認
https://github.com/ldiqual/tesseract-ios
http://lois.di-qual.net/blog/install-and-use-tesseract-on-ios-with-tesseract-ios/

gali8/Tesseract-OCR-iOS
上記のコードに手をいれて64bit対応したみたい
https://github.com/gali8/Tesseract-OCR-iOS

カメラで撮影してまでテンプレで入っているので
実機転送まで出来るiOSの開発者ライセンスを持っている方には使いやすい

定番はまり

言語対応のため追加したjpn.traineddataが有効にならない
→フォルダリファレンスじゃなくて、グループ指定してた
→なおした。動かない
→シミュレータのアプリ本体を削除忘れ
→消した。うごいたー

応用

iOS用にビルド

※理解が進んだら追記します。
SDKのアップデートが確実な時に書いてますので、多少変わるような気がします。
http://lois.di-qual.net/blog/compile-tesseract-for-ios-sdk-6-0/

認識率をあげる

公式
https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

Tesseract-OCRの学習
http://hadashi-gensan.hatenablog.com/entry/2014/01/15/135316

日本語練習中
http://d.hatena.ne.jp/uakira/20140710

さいごに

ざっと実装してみたところ、認識率があまりよろしくなく
原因としては、googleからダウンロードした日本語データだけでは実用に耐えない印象です。
認識率をあげるためにはデータの収集方法が別途必要。

33
34
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
33
34