LoginSignup
4
3

More than 5 years have passed since last update.

tesseract-OCR for Python [日本語対応版]

Last updated at Posted at 2016-06-25

tesseract-ocr for Python

はじめに、やりたいこと

OCR 技術を利用して、日本語を抽出したい。
また抽出した日本語は、色々な用途で利用予定。

利用環境

MacBook Pro (13-inch, Mid 2012)
プロセッサ: 2.5 GHz Intel Core i5
メモリ: 4 GB 1600 MHz DDR3
OS: OS X El Capitan (Ver.10.11.4)

インストール参照先:

You can install "Tesseract" using either "MacPorts" or "Homebrew".
(あなたは"MacPorts"か、"Homebrew"のいずれかで、"Tesseract"をインストールすることができます。)

1. 利用したもの

ターミナル
sudo port install tesseract
# '<langcode>'部分に処理したい言語のパッケージをインストールする (英語:eng, 日本語:jpn)
sudo port install tesseract-<langcode>
ターミナル
brew install tesseract

2. 実行

今回は、日本語と英語を混ぜた画像を用意しました。

ターミナル
tesseract test.png out -l eng+jpn

※実行した画像の情報
大きさ: 996 x 517
↓↓↓↓画像↓↓↓↓
test.png
↑↑↑ここまで↑↑↑

結果

テキスト出力結果
tesseract—ocr for Python

はじめにヽ やりたいこと

OCR 技術を利用 して、 日本語を抽出 したい。
また抽出 した 日本語はヽ 色々 な用途で利用予定。

反省点

細かく試していないので、特にこれといったことではないのですが、
おそらく"解像度"や"空白部分(余白含め)"などあらゆる条件でも結果が変わってくると思います。
いつか必要があれば、検証してみます。

ちなみに、"英語のみ"や"日本語のみ"だと、かなりいい結果となっています。

4
3
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
3