2
8

More than 3 years have passed since last update.

pyocr+tesseract+anaconda+win環境で詰まったこと

Posted at

はじめに

解決した症状と同じエラー吐かれている人は無事にOCRでウハウハできると思われます
そうじゃ無い人もwindowsでanaconda使ってpyocrとtesseractをインストールしてウハウハできると思われます

解決した症状

pyocr.error.TesseractError: (-1, 'Unable to find output file "日本語のディレクトリ名"...

背景

自前のPC(Mac)とDockerで動いていたOCRの環境をwindowsに移植する必要があった.

環境

動けばいいや,だったので基本的にうろ覚え
上の4つはすべて2020/02/17のlatestバージョン

  • anaconda
  • python3.XX
  • pyocr
  • tesseract
  • windows:とりあえず64bitなのはたしか

コマンド

次の順番で打っていけば大丈夫.(私はこの順でやっていきました)

pip install pyocr
conda install --all
conda install -c conda-forge tesseract

ここからが罠?

デフォルトでは,英語しか対応していない&tesseractのconfigファイルがない?
(断言できないが,私のはこうだった)

  1. anacondaのディレクトリを探す
  2. tessdataディレクトリを探す
  3. 公式から言語ファイルをダウンロード
  4. 解答してtessdata内に置く
  5. configsがフォルダじゃなくてディレクトリならここのファイルコピーして持っていってください →このやり方が賢いかはわかりませんww

おわりに

メモ書き程度にまとめたので,なにかあればおっしゃって下さい
少なくとも自分が調べた限り,全く同じ内容では記事がなかったので公開しておきます

2
8
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
8