More than 5 years have passed since last update.

tesseractで文字（日本語）認識やってみた

tesseract

Posted at 2018-12-19

はじめに

こんにちは。
文字認識ってなんだか夢がありますよね！そんな文字認識も簡単に出来てしまうこの時代… やらねば損だねということでまずコマンドラインで実行させて行こうかなと思います。

参考にさせて頂いたサイト

Ubuntuにtesseract-ocrをインストール
さんの記事を参考にさせていただきました。

インストール

パッケージインストール

まず外堀から埋めていきます。

sudo apt-get install autoconf automake libtool
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev
sudo apt-get install libicu-dev      
sudo apt-get install libpango1.0-dev 
sudo apt-get install libcairo2-dev   
sudo apt-get install libleptonica-dev

ここからtesseractをインストール

sudo apt-get install tesseract-ocr

ここまででtesseractはインストールされました。
続いて…

言語のデータファイルインストール

https://github.com/tesseract-ocr/tesseract/wiki/Data-Filesにアクセスし
tesseract-ocr-3.02.eng.tar.gz
tesseract-ocr-3.02.jpn.tar.gz
をインストール→解凍します。
次に/usr/local/share/tessdataに
jpn.traindata
eng.traindata
を入れます。
この時、

sudo mv jpn.traindata ../../../usr/local/share/tessdata

ってやると一発です。
../../の部分は自分のtraindataがあるディレクトリに合わせてください。

ここまで来たら

sudo apt update
sudo apt upgrade

したら完了です。

使用してみる

適当なpngファイルを用意します。
著作権とか面倒なのでやり方だけ載せておきます。

tesseract 認識したい画像(png) 出力ファイル名 -l 言語選択

例えば、okatsuki.pngという画像の文字認識をしたい。
出力ファイル名は、OK.txtにしたい。
言語は日本語で　
という場合は

tesseract okatsuki.png OK -l jpn

って感じになります。
ちなみに英語の場合はjpnのところをengにすれば大丈夫です。

最後に

いかがでしたでしょうか？備忘録的な要素を多分に含んでいるため、大変読みづらい記事であったかと思いますがみなさんの参考になれば良いなと思います。
またいつか、文字認識を使ったなにかを作ったら続きという感じでやっていきます。
みなさんもぜひいろいろ作って見てください。
ではでは。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up