はじめに
前回、tesseractを使ってみよう(初心者編)では、tesseract 3系しかインストールができなかったので、今回は4系をインストールします。
環境は、Ubuntu 16.04 LTSです。Ubuntu 18.04 LTSなら多分4系が入るはずです。
インストール
古いのを削除
すでにインストール済みのモジュールがある場合は一旦削除します。
削除をしないと後の再インストールに失敗します。
$ sudo apt remove tesseract-ocr
$ sudo apt remove libtesseract-dev
再インストール
- 普通にインストールをすると、また3系しか入らないので、下記のサイトを参考に実行します。
https://launchpad.net/~alex-p/+archive/ubuntu/tesseract-ocr?field.series_filter=xenial
sudo add-apt-repository ppa:alex-p/tesseract-ocr
sudo apt-get update
- そして、改めてインストール
$ sudo apt-get install tesseract-ocr libtesseract-dev libleptonica-dev
- 確認
4系が入りました
$ tesseract -v
tesseract 4.0.0-rc4
leptonica-1.76.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.4.2) : libpng 1.2.54 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.4 : libopenjp2 2.1.2
Found AVX2
Found AVX
Found SSE
言語のインストール
- 日本語のインストールをします。二種類あります。
vertがついているのは縦書き用のようです。
$ sudo apt install tesseract-ocr-jpn tesseract-ocr-jpn-vert
$ sudo apt install tesseract-ocr-script-jpan tesseract-ocr-script-jpan-vert
- 確認
$ tesseract --list-langs
List of available languages (6):
Japanese
Japanese_vert
eng
jpn
jpn_vert
osd
実行
- 2種類の言語で試してみます。
$ tesseract -l jpn test.png out1
$ tesseract -l Japanese test.png out2
結果
PythonのWikiの目次のスクリーンショットを撮って試してみた結果がこちら。
両方の言語ファイルで微妙に結果が異なります。tesseract3系よりは良くなってます。
左:読み込ませた画像
中央:結果(jpn)
右:結果(Japanese)