0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【紙運用の会社向け】紙をスキャンして綺麗に文字起こししてデジタル化しよう!Tesseract OCRで画像から日本語文字を抽出するまでの手順

Posted at

🧠 はじめに

こんにちは、大企業・中小企業・SE・営業・経営を経験し、現在は製造業を中心にデジタル化、DX支援などをしておりますせいやです。

最近、AI の進化が凄く、画像認識のレベルも上がりました。
一方で、日本の企業の半分以上は「紙運用」のままの企業が多く、AIの恩恵を受けにくいです。

そんな貴方に、紙運用でもAIを使えるようにするのが、今日のテーマです。

「紙をスキャンして、文字起こしして、分類して、csv やスプレッドシートに保存する方法ないかなぁ?」と思っている方

この投稿を読めば、実現できます!


🎯 この記事でできること

  • .tif 形式のスキャン画像から日本語テキストを自動で読み取る
  • Windows + VSCode 環境で Python + Tesseract OCR を動かす
  • よくあるエラー(Unicode escape)も丁寧に解決
  • ChatGPT APIとの連携に進む準備として最適

🛠 環境構築ステップ

✅ 1. Pythonをインストール

公式サイト から最新版をインストール
インストール時に「Add Python to PATH」にチェックを忘れずに!


✅ 2. VSCodeで作業用フォルダを作成

C:\Users\User\Documents\Python\scanAutomate\

上記をプロジェクトフォルダとして、ここに .py ファイルを置いて作業します。


✅ 3. 必要なPythonライブラリをインストール

ターミナルで以下を実行:

pip install pytesseract pillow

✅ 4. Tesseract OCRをインストール(日本語対応)

① 公式からインストーラーをダウンロード

👉 https://github.com/tesseract-ocr/tesseract

② インストール後のパス(例)を確認:

C:\Program Files\Tesseract-OCR\

③ 環境変数にこのパスを追加する

  • Windows検索で「環境変数」→「Path」編集→上記のパスを追加
  • 追加後、ターミナルで以下を実行して確認:
tesseract --version

出力例:

tesseract v5.4.0.20240606

✅ 5. OCR実行用スクリプト(tif画像対応)

📄 ファイル名例:ocr_test.py

from PIL import Image
import pytesseract

# TIF画像ファイルのパス(スラッシュ or r"" でエスケープ)
img_path = r"C:/Users/User/Documents/Python/scanAutomate/xxxx.tif"

# OCR処理(日本語)
text = pytesseract.image_to_string(Image.open(img_path), lang='jpn')

print("----- 読み取ったテキスト -----")
print(text)
print("----------------------------")

✅ 補足:パス指定の注意点

以下のようなエラーが出たら、\ が原因です:

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position...

🔧 解決方法:

  • \\ を使う
  • または先頭に r をつけて: r"C:\..." にする
  • または / にする(WindowsでもOK)

✅ 6. 実行方法

python ocr_test.py

画像内の日本語テキストがターミナルに表示されれば成功です!


🎉 出力例

----- 読み取ったテキスト -----
株式会社サンプル
注文番号:12345
納期:2025年6月30日
...
----------------------------

🧠 この先の展望

このOCR結果を元に、以下のような活用が可能です:

  • ChatGPT APIに連携して 分類・金額・日付の抽出
  • OCR結果を Excel/CSVに自動保存
  • スキャンフォルダを監視して 完全自動処理

✅ まとめ

ステップ 内容
Python + Pillow + pytesseract OCR実行環境の構築
Tesseract + 日本語学習データ 日本語OCRを可能に
ファイルパスの工夫 よくあるエラーを回避
tif画像 → OCR → print出力 最小構成の動作確認完了!

📩 最後に

実務やDX現場で使いたい方の参考になれば幸いです!

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?