More than 5 years have passed since last update.

pyocr+tesseract+anaconda+win環境で詰まったこと

Posted at 2020-02-17

はじめに

解決した症状と同じエラー吐かれている人は無事にOCRでウハウハできると思われます
そうじゃ無い人もwindowsでanaconda使ってpyocrとtesseractをインストールしてウハウハできると思われます

pyocr.error.TesseractError: (-1, 'Unable to find output file "日本語のディレクトリ名"...

自前のPC（Mac）とDockerで動いていたOCRの環境をwindowsに移植する必要があった．

動けばいいや，だったので基本的にうろ覚え
上の4つはすべて2020/02/17のlatestバージョン

次の順番で打っていけば大丈夫．（私はこの順でやっていきました）

pip install pyocr
conda install --all
conda install -c conda-forge tesseract

デフォルトでは，英語しか対応していない＆tesseractのconfigファイルがない？
（断言できないが，私のはこうだった）

anacondaのディレクトリを探す
tessdataディレクトリを探す
公式から言語ファイルをダウンロード
解答してtessdata内に置く
configsがフォルダじゃなくてディレクトリなら[ここ](# https://drive.google.com/uc?id=)のファイルコピーして持っていってください
→このやり方が賢いかはわかりませんww

メモ書き程度にまとめたので，なにかあればおっしゃって下さい
少なくとも自分が調べた限り，全く同じ内容では記事がなかったので公開しておきます