はじめに
解決した症状と同じエラー吐かれている人は無事にOCRでウハウハできると思われます
そうじゃ無い人もwindowsでanaconda使ってpyocrとtesseractをインストールしてウハウハできると思われます
解決した症状
pyocr.error.TesseractError: (-1, 'Unable to find output file "日本語のディレクトリ名"...
背景
自前のPC(Mac)とDockerで動いていたOCRの環境をwindowsに移植する必要があった.
環境
動けばいいや,だったので基本的にうろ覚え
上の4つはすべて2020/02/17のlatestバージョン
- anaconda
- python3.XX
- pyocr
- tesseract
- windows:とりあえず64bitなのはたしか
コマンド
次の順番で打っていけば大丈夫.(私はこの順でやっていきました)
pip install pyocr
conda install --all
conda install -c conda-forge tesseract
ここからが罠?
デフォルトでは,英語しか対応していない&tesseractのconfigファイルがない?
(断言できないが,私のはこうだった)
- anacondaのディレクトリを探す
- tessdataディレクトリを探す
- 公式から言語ファイルをダウンロード
- 解答してtessdata内に置く
- configsがフォルダじゃなくてディレクトリなら[ここ](# https://drive.google.com/uc?id=)のファイルコピーして持っていってください
→このやり方が賢いかはわかりませんww
おわりに
メモ書き程度にまとめたので,なにかあればおっしゃって下さい
少なくとも自分が調べた限り,全く同じ内容では記事がなかったので公開しておきます