tesseract-ocr for Python
はじめに、やりたいこと
OCR 技術を利用して、日本語を抽出したい。
また抽出した日本語は、色々な用途で利用予定。
利用環境
MacBook Pro (13-inch, Mid 2012)
プロセッサ: 2.5 GHz Intel Core i5
メモリ: 4 GB 1600 MHz DDR3
OS: OS X El Capitan (Ver.10.11.4)
インストール参照先:
You can install "Tesseract" using either "MacPorts" or "Homebrew".
(あなたは"MacPorts"か、"Homebrew"のいずれかで、"Tesseract"をインストールすることができます。)
1. 利用したもの
ターミナル
sudo port install tesseract
# '<langcode>'部分に処理したい言語のパッケージをインストールする (英語:eng, 日本語:jpn)
sudo port install tesseract-<langcode>
ターミナル
brew install tesseract
2. 実行
今回は、日本語と英語を混ぜた画像を用意しました。
ターミナル
tesseract test.png out -l eng+jpn
※実行した画像の情報
大きさ: 996 x 517
↓↓↓↓画像↓↓↓↓
↑↑↑ここまで↑↑↑
結果
テキスト出力結果
tesseract—ocr for Python
はじめにヽ やりたいこと
OCR 技術を利用 して、 日本語を抽出 したい。
また抽出 した 日本語はヽ 色々 な用途で利用予定。
反省点
細かく試していないので、特にこれといったことではないのですが、
おそらく"解像度"や"空白部分(余白含め)"などあらゆる条件でも結果が変わってくると思います。
いつか必要があれば、検証してみます。
ちなみに、"英語のみ"や"日本語のみ"だと、かなりいい結果となっています。