4
Help us understand the problem. What are the problem?

More than 1 year has passed since last update.

posted at

updated at

Python OCR System 画像から文字を起こして作業効率化

1. Python OCR Systemを作成した背景

学生は卒業研究やレポートの作成をする時、本やインターネットなど様々な文献から

引用する場面もありレポート作成は学生にとって負担は大きいと思います。

そこで、写真に撮ったりスクリーンショットしたりして得た画像から文字を

起こせたら作業効率化に繋がると考え今回PC用のOCR Systemを

作成することにしました。

2. 開発環境

  • Windows10
  • Python3.7  
  • Pycharm

3. GitHubにReleases

rtInamoriRyusei / RT-Inamoriの中にFileをReleaseしています。

ぜひ多くの人に使っていただきたいので、無料で公開いたします。

下にリンクを張っておきますのでぜひ活用してください。

4. 使い方

① 上記リンクより

 ・dist.zip
 ・Tesseract-OCR.zip

  の2つのFileをDownloadしていただいて、2つとも解凍してください。

② Tesseract-OCRのFileをC:\Program Filesに保存してください。

③ その後、distFileにあるmain.exeをダブルクリックして起動していただくと使用できます。

④ ここからは実際の画面をお見せして説明します。起動するとこんな画面になります。
  1.PNG

⑤ 続いて文字を起こしたい画像(.png / .jpg)を上のボックスにドラッグアンドドロップしてください。するとこんな感じになります。
   3.PNG

⑥ そしてStart Buttonを押していただくと文字を起こすことが出来ます。
   4.PNG

⑦ あとは下のボックスの文字をコピー&ペーストするだけです。

※使用するにあたって、本来コピーできないテキストは著作権法で守られているので著作権法を遵守した利用をするようご注意ください。

5. 参照

  Pythonスクリプトのexeファイル化
  Python Scriptを実行形式(exe形式)に変換
  PythonとTesseract OCRで文字認識

6. 最後に

いかがだったでしょうか。

今回は短い文章でしたので良い精度が出ていますが、長い文章や写真のサイズなどにより

文字違いなども起こり、100%の精度で文字を起こすことは不可能です。

しかし、画像の切り方やサイズを使いながら工夫していただけると良いかと思います。

まだまだ実用性には欠ける部分も多いですが少しでも効率的な作業に繋がると幸いです。

もしいいと感じた方は自由にお使いください。

  

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
4
Help us understand the problem. What are the problem?