Mac
MacOSX
macports
tesseract-ocr

tesseract-ocrのtraining toolsをMacOS Xにインストールする

More than 1 year has passed since last update.

背景

Tesseract-ocrはオープンソースのOCRソフトウェアです。つまり、画像データから文字を識別してテキストデータに変換します。配布されている初期の言語データでの文字の読み取り精度は、日本語の場合はとくに、あまりよくないように感じます。言語データを学習させるためのtraining toolsが提供されているのですが、macportsではtraining toolsがインストールされませんでした(調べた感じではHomebrewでもインストールされないかもです)。Training toolsは、次のコマンドを提供します。

  • unicharset_extractor
  • mftraining
  • cntraining
  • combine_tessdata

下記の要領でtraining toolsをインストールして利用できるようになりました。公式のWikiもアップデートしておきました。

なお、training toolsで学習させたらかなり精度はよくなりました。

TesseractとTraining toolsの前提パッケージをインストール

sudo port install automake autoconf
sudo port install pkgconfig
sudo port install leptonica
# 以下はTraining toolsのビルドでつかう
sudo port install cairo pango
sudo port install icu +devel

Tesseractとtraining toolsのビルドとインストール

git clone https://github.com/tesseract-ocr/tesseract/
cd tesseract
./autogen.sh
./configure \
    --with-extra-libraries=/opt/local/lib \
    --with-extra-includes=/opt/local/include \
    LDFLAGS=-L/opt/loca/lib \
    CPPFLAGS=-I/opt/local/include
make
sudo make install

make training
sudo make training-install