12
16

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

ChatGPTで日本語OCRをする(Code Interpreter)

Posted at

はじめに

本記事ではChatGPT経由で日本語OCRをする方法について記述したものです。Code Interpreterを使うため、ChatGPT Plusに加入していることが前提条件となります。

Code Interpreterを使う

まず設定をONにして、Code Interpreterを使えるようにします。

  1. Setting&Beta
    スクリーンショット 2023-08-08 220034.png
  2. Settings > Beta featuresからCode Interpreterをオンに
    スクリーンショット 2023-08-08 220053.png
    オンにすると、モデル選択欄にホバーしたときにCode Interpreterを選べるようになってます。
    スクリーンショット 2023-08-08 220340.png

日本語OCR

まずはOCRが本当にできるのか試してみます。英語で実験。
スクリーンショット 2023-08-08 220719.png
スクリーンショット 2023-08-08 221117.png
成功しました。といっても、内部的にはpythonのコードを実行しているだけなので、pytesseractというOCRのライブラリの力になります。
スクリーンショット 2023-08-08 221237.png
では次は日本語も、といきたいところなのですが、デフォルトでは日本語のトレーニングデータが不足しており、このままでは実行できません。
スクリーンショット 2023-08-08 221443.png
スクリーンショット 2023-08-08 221746.png
「じゃあ、データを用意すればいいんだよね?」
というわけで、日本語のトレーニングデータを用意しましょう。以下のgithubページからダウンロードできます。
https://github.com/tesseract-ocr/tessdata/blob/main/jpn.traineddata
これを画像と同時に添付してやると、日本語OCRも可能になります。
スクリーンショット 2023-08-08 222507.png
スクリーンショット 2023-08-08 222429.png

おわりに

Code InterpreterでPythonのコードを実行できるのは結構嬉しい。後、ファイルの読み取りができるようになったから、クソ長プログラムを解析してほしいときにコピペいらずでファイル投下するだけでよくなったのが個人的には嬉しい。

12
16
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
12
16

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?