【紙運用の会社向け】紙をスキャンして綺麗に文字起こししてデジタル化しよう！Tesseract OCRで画像から日本語文字を抽出するまでの手順

Last updated at 2025-08-07Posted at 2025-06-19

🧠 はじめに

こんにちは、エンジニア・営業・クリエイター・経営・大企業・中小企業全てを経験しておりますせいやです。

これまでNTTデータグループでシステムエンジニアを7年経験後、工業製品を扱う中小零細の商社に転職し、現在は営業・経営・DX支援などをしております。

デジタルとアナログの両極端の業界を経験した目線で、AIネイティブな組織に近づけるため、日々実践している仕組みやノウハウをQiitaでも発信しています。

💬 工業製品のご要望、DX関係の質問やご相談があれば、以下いずれかからお気軽にご連絡ください！

X：杉本誠也

メール：sugimoto@sawada5681.jp

会社HP：https://sawada5681.jp/

最近、AI の進化が凄く、画像認識のレベルも上がりました。
一方で、日本の企業の半分以上は「紙運用」のままの企業が多く、AIの恩恵を受けにくいです。

そんな貴方に、紙運用でもAIを使えるようにするのが、今日のテーマです。

「紙をスキャンして、文字起こしして、分類して、csv やスプレッドシートに保存する方法ないかなぁ？」と思っている方

この投稿を読めば、実現できます！

🎯 この記事でできること

.tif 形式のスキャン画像から日本語テキストを自動で読み取る
Windows + VSCode 環境で Python + Tesseract OCR を動かす
よくあるエラー（Unicode escape）も丁寧に解決
ChatGPT APIとの連携に進む準備として最適

🛠 環境構築ステップ

✅ 1. Pythonをインストール

公式サイトから最新版をインストール
インストール時に「Add Python to PATH」にチェックを忘れずに！

✅ 2. VSCodeで作業用フォルダを作成

C:\Users\User\Documents\Python\scanAutomate\

上記をプロジェクトフォルダとして、ここに .py ファイルを置いて作業します。

✅ 3. 必要なPythonライブラリをインストール

ターミナルで以下を実行：

pip install pytesseract pillow

✅ 4. Tesseract OCRをインストール（日本語対応）

① 公式からインストーラーをダウンロード

👉 https://github.com/tesseract-ocr/tesseract

② インストール後のパス（例）を確認：

C:\Program Files\Tesseract-OCR\

③ 環境変数にこのパスを追加する

Windows検索で「環境変数」→「Path」編集→上記のパスを追加
追加後、ターミナルで以下を実行して確認：

tesseract --version

出力例：

tesseract v5.4.0.20240606

✅ 5. OCR実行用スクリプト（tif画像対応）

📄 ファイル名例：`ocr_test.py`

from PIL import Image
import pytesseract

# TIF画像ファイルのパス（スラッシュ or r"" でエスケープ）
img_path = r"C:/Users/User/Documents/Python/scanAutomate/xxxx.tif"

# OCR処理（日本語）
text = pytesseract.image_to_string(Image.open(img_path), lang='jpn')

print("----- 読み取ったテキスト -----")
print(text)
print("----------------------------")

✅ 補足：パス指定の注意点

以下のようなエラーが出たら、\ が原因です：

SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position...

🔧 解決方法：

\\ を使う
または先頭に r をつけて： r"C:\..." にする
または / にする（WindowsでもOK）

✅ 6. 実行方法

python ocr_test.py

画像内の日本語テキストがターミナルに表示されれば成功です！

🎉 出力例

----- 読み取ったテキスト -----
株式会社サンプル
注文番号：12345
納期：2025年6月30日
...
----------------------------

🧠 この先の展望

このOCR結果を元に、以下のような活用が可能です：

ChatGPT APIに連携して 分類・金額・日付の抽出
OCR結果を Excel/CSVに自動保存
スキャンフォルダを監視して 完全自動処理

✅ まとめ

ステップ	内容
Python + Pillow + pytesseract	OCR実行環境の構築
Tesseract + 日本語学習データ	日本語OCRを可能に
ファイルパスの工夫	よくあるエラーを回避
tif画像 → OCR → print出力	最小構成の動作確認完了！

📩 最後に

実務やDX現場で使いたい方の参考になれば幸いです！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up