LoginSignup
16
8

More than 5 years have passed since last update.

tesseractを使ってみよう②(初心者編)

Posted at

はじめに

前回、tesseractを使ってみよう(初心者編)では、tesseract 3系しかインストールができなかったので、今回は4系をインストールします。

環境は、Ubuntu 16.04 LTSです。Ubuntu 18.04 LTSなら多分4系が入るはずです。

インストール

古いのを削除

すでにインストール済みのモジュールがある場合は一旦削除します。
削除をしないと後の再インストールに失敗します。

$ sudo apt remove tesseract-ocr
$ sudo apt remove libtesseract-dev

再インストール

sudo add-apt-repository ppa:alex-p/tesseract-ocr
sudo apt-get update
  • そして、改めてインストール
$ sudo apt-get install tesseract-ocr libtesseract-dev libleptonica-dev
  • 確認
    4系が入りました
$ tesseract -v
tesseract 4.0.0-rc4
 leptonica-1.76.0
  libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.4.2) : libpng 1.2.54 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.4 : libopenjp2 2.1.2
 Found AVX2
 Found AVX
 Found SSE

言語のインストール

  • 日本語のインストールをします。二種類あります。
    vertがついているのは縦書き用のようです。
$ sudo apt install tesseract-ocr-jpn  tesseract-ocr-jpn-vert
$ sudo apt install tesseract-ocr-script-jpan tesseract-ocr-script-jpan-vert
  • 確認
$ tesseract --list-langs
List of available languages (6):
Japanese
Japanese_vert
eng
jpn
jpn_vert
osd

実行

  • 2種類の言語で試してみます。
$ tesseract -l jpn test.png out1
$ tesseract -l Japanese test.png out2

結果

PythonのWikiの目次のスクリーンショットを撮って試してみた結果がこちら。
両方の言語ファイルで微妙に結果が異なります。tesseract3系よりは良くなってます。

左:読み込ませた画像
中央:結果(jpn)
右:結果(Japanese)
tesseract4.png

参考

16
8
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
16
8