Ubuntuにtesseract-ocrをインストール

More than 3 years have passed since last update.

次のパーケッジをインストールします。

sudo apt-get install autoconf automake libtool

sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev
sudo apt-get install libicu-dev
sudo apt-get install libpango1.0-dev
sudo apt-get install libcairo2-dev
sudo apt-get install libleptonica-dev

次に、tesseract-ocrをダウンロードします。

sudo apt-get install tesseract-ocr

次に、ダウンロードリストにて

https://code.google.com/p/tesseract-ocr/downloads/list

日本語と英語のtraindataをダウンロードしましょう。

tesseract-ocr-3.02.eng.tar.gz

tesseract-ocr-3.02.jpn.tar.gz

ダウンロードしたものを解凍し、jpn.traineddataとeng.traineddataを/usr/local/share/tessdata/tessdataに移動します。

そして、TESSDATA_PREFIX変数をセットします。

export TESSDATA_PREFIX=/usr/local/share/tessdata

最後に、実行しましょう。

tesseract t.png out -l jpn

上記のコマンドでt.pngを読み込んでlオプションで日本語として処理を行い、最後にout.txtとして出力されます。