More than 5 years have passed since last update.

tesseract-OCR for Python [日本語対応版]

Last updated at 2016-06-26Posted at 2016-06-25

tesseract-ocr for Python

OCR 技術を利用して、日本語を抽出したい。
また抽出した日本語は、色々な用途で利用予定。

MacBook Pro (13-inch, Mid 2012)
プロセッサ: 2.5 GHz Intel Core i5
メモリ: 4 GB 1600 MHz DDR3
OS: OS X El Capitan (Ver.10.11.4)

You can install "Tesseract" using either "MacPorts" or "Homebrew".
(あなたは"MacPorts"か、"Homebrew"のいずれかで、"Tesseract"をインストールすることができます。)

ターミナル

sudo port install tesseract
# '<langcode>'部分に処理したい言語のパッケージをインストールする (英語:eng, 日本語:jpn)
sudo port install tesseract-<langcode>

ターミナル

brew install tesseract

今回は、日本語と英語を混ぜた画像を用意しました。

ターミナル

tesseract test.png out -l eng+jpn

※実行した画像の情報
大きさ: 996 x 517
↓↓↓↓画像↓↓↓↓

↑↑↑ここまで↑↑↑

テキスト出力結果

tesseract—ocr for Python

はじめにヽ やりたいこと

OCR 技術を利用 して、 日本語を抽出 したい。
また抽出 した 日本語はヽ 色々 な用途で利用予定。

細かく試していないので、特にこれといったことではないのですが、
おそらく"解像度"や"空白部分(余白含め)"などあらゆる条件でも結果が変わってくると思います。
いつか必要があれば、検証してみます。

ちなみに、"英語のみ"や"日本語のみ"だと、かなりいい結果となっています。