OCRをやってみたかったので調べてみました。忘れないようにメモを残します。
Tesseractのインストールと使用方法
Tesseract本体のインストールを行います。
apt install tesseract-ocr libtesseract-dev tesseract-ocr-jpn
念の為、使用できる言語を調べます。出力にjpnが入っていれば問題ありません。
tesseract --list-langs
下の画像データtest.pngを読み込み、認識結果をファイルresult.txtに出力する。
tesseract ./test.png ./result -l jpn
私の環境では正しく認識されました。なお、拡張子は勝手につけられます。
Python上でTesseractを使ってみる
pythonでTesseractを使えるようにするため、pytesseractをインストールします。
pip install pytesseract
先の画像ファイルtest.jpgを同じように認識させてみる。
import pytesseract
from PIL import Image
result = pytesseract.image_to_string(Image.open('test.png'),lang='jpn') 
print(result)
これも正しく認識されました。

