次のパーケッジをインストールします。
sudo apt-get install autoconf automake libtool
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev
sudo apt-get install libicu-dev
sudo apt-get install libpango1.0-dev
sudo apt-get install libcairo2-dev
sudo apt-get install libleptonica-dev
次に、tesseract-ocrをダウンロードします。
sudo apt-get install tesseract-ocr
次に、ダウンロードリストにて
https://code.google.com/p/tesseract-ocr/downloads/list
日本語と英語のtraindataをダウンロードしましょう。
tesseract-ocr-3.02.eng.tar.gz
tesseract-ocr-3.02.jpn.tar.gz
ダウンロードしたものを解凍し、jpn.traineddataとeng.traineddataを/usr/local/share/tessdata/tessdataに移動します。
そして、TESSDATA_PREFIX
変数をセットします。
export TESSDATA_PREFIX=/usr/local/share/tessdata
最後に、実行しましょう。
tesseract t.png out -l jpn
上記のコマンドでt.pngを読み込んでlオプションで日本語として処理を行い、最後にout.txtとして出力されます。