Help us understand the problem. What is going on with this article?

画像からのテキスト抽出:tesseract-ocr

More than 5 years have passed since last update.

はじめに

画像からの文字の抽出をやってみたいと思ってたので

簡単

とにかく試してみたい方向きに

ldiqual/tesseract-ios
ReadMe.mdが丁寧で分かりやすかった。64bit対応ができるかは要確認
https://github.com/ldiqual/tesseract-ios
http://lois.di-qual.net/blog/install-and-use-tesseract-on-ios-with-tesseract-ios/

gali8/Tesseract-OCR-iOS
上記のコードに手をいれて64bit対応したみたい
https://github.com/gali8/Tesseract-OCR-iOS

カメラで撮影してまでテンプレで入っているので
実機転送まで出来るiOSの開発者ライセンスを持っている方には使いやすい

定番はまり

言語対応のため追加したjpn.traineddataが有効にならない
→フォルダリファレンスじゃなくて、グループ指定してた
→なおした。動かない
→シミュレータのアプリ本体を削除忘れ
→消した。うごいたー

応用

iOS用にビルド

※理解が進んだら追記します。
SDKのアップデートが確実な時に書いてますので、多少変わるような気がします。
http://lois.di-qual.net/blog/compile-tesseract-for-ios-sdk-6-0/

認識率をあげる

公式
https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

Tesseract-OCRの学習
http://hadashi-gensan.hatenablog.com/entry/2014/01/15/135316

日本語練習中
http://d.hatena.ne.jp/uakira/20140710

さいごに

ざっと実装してみたところ、認識率があまりよろしくなく
原因としては、googleからダウンロードした日本語データだけでは実用に耐えない印象です。
認識率をあげるためにはデータの収集方法が別途必要。

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away