tesseractとは
OCRライブラリ。画像中の文字列を読みだすことができる。
インストール
Windowsネイティブのインストーラもあるが、WSLの場合はLinux同様の手順でaptを使ってインストールできる。
手順にあるtesseract-ocr
とlibtesseract-dev
のほかに、日本語を使う場合はtesseract-ocr-jpn
も必要。
sudo apt install tesseract-ocr libtesseract-dev tesseract-ocr-jpn
実行手順
これは手順通り。日本語を使う場合は-l jpn
とオプションを付ける。
tesseract input.png output -l jpn