LoginSignup
4
13

More than 1 year has passed since last update.

Pythonで画像をOCRしてテキスト変換する!

Posted at

はじめに

Pythonプログラムで即業務に役立つサンプルプログラムとして、画像の中の文字をOCR処理して文字起こしするプログラムを作成しましたので、共有します。
今回利用したOCRエンジンは、Tesseract-OCRです。

動作環境

Visual Studio Code
Python3.9.1

各種インストールライブラリー

pyocr 0.8.2
Pillow 8.4.0
pyperclip 1.8.2

処理概要:

クリップボードにある画像データをインプットにPythonプログラムでOCR処理して、テキストデータに変換して、再びクリップボードに保存するプログラムです。
Pythonで超便利OCRツール作成_060.png

YouTubeでの解説:

プログラムの詳細やTesseractのインストール方法、Pythonプログラムをショートカットキーで実行する方法などはYoutubeでも解説していますので、ぜひ、ご覧ください。

サンプルソース

YouTubeで紹介している処理のプログラムソースです。

OCR_pgm.py
import pyocr
from PIL import Image,ImageGrab
import pyperclip as pc

pyocr.tesseract.TESSERACT_CMD = r'C:\\Program Files\\Tesseract-OCR\\tesseract.exe'
#pyocrへ利用するOCRエンジンをTesseractに指定する。
tools = pyocr.get_available_tools()
tool = tools[0]

img = ImageGrab.grabclipboard()
# img = Image.open("./test.jpg")

#画像から文字を読み込む
builder = pyocr.builders.TextBuilder(tesseract_layout=6)
text = tool.image_to_string(img, lang="jpn", builder=builder)

print(text)
pc.copy(text)

最後に:

今後も、業務に役立ちそうなプログラムを作成して掲載していきたいと思います。

4
13
4

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
13