Posted at

tesseractを使ってみよう②(初心者編)

More than 1 year has passed since last update.


はじめに

前回、tesseractを使ってみよう(初心者編)では、tesseract 3系しかインストールができなかったので、今回は4系をインストールします。

環境は、Ubuntu 16.04 LTSです。Ubuntu 18.04 LTSなら多分4系が入るはずです。


インストール


古いのを削除

すでにインストール済みのモジュールがある場合は一旦削除します。

削除をしないと後の再インストールに失敗します。

$ sudo apt remove tesseract-ocr

$ sudo apt remove libtesseract-dev


再インストール

sudo add-apt-repository ppa:alex-p/tesseract-ocr

sudo apt-get update


  • そして、改めてインストール

$ sudo apt-get install tesseract-ocr libtesseract-dev libleptonica-dev


  • 確認

    4系が入りました

$ tesseract -v

tesseract 4.0.0-rc4
leptonica-1.76.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.4.2) : libpng 1.2.54 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.4 : libopenjp2 2.1.2
Found AVX2
Found AVX
Found SSE


言語のインストール


  • 日本語のインストールをします。二種類あります。

    vertがついているのは縦書き用のようです。

$ sudo apt install tesseract-ocr-jpn  tesseract-ocr-jpn-vert

$ sudo apt install tesseract-ocr-script-jpan tesseract-ocr-script-jpan-vert


  • 確認


$ tesseract --list-langs

List of available languages (6):
Japanese
Japanese_vert
eng
jpn
jpn_vert
osd


実行


  • 2種類の言語で試してみます。

$ tesseract -l jpn test.png out1

$ tesseract -l Japanese test.png out2


結果

PythonのWikiの目次のスクリーンショットを撮って試してみた結果がこちら。

両方の言語ファイルで微妙に結果が異なります。tesseract3系よりは良くなってます。

左:読み込ませた画像

中央:結果(jpn)

右:結果(Japanese)

tesseract4.png


参考