経緯
前回GPTsで貸借対照表PDFを表形式に変換してみた。という決算書の内財務諸表PDFをAIに読み取らせ、データ化する記事を投稿した。 そこでは画像形式PDFには対応していなかったことや、一部形式が変わるとエラーで落ちる。表の形式は変わらないのに色付きになると急に精度が落ちるなどまだまだ改善が必要だった。 そこで最近噂のclaude 3で同じことをするとどうなるか試してみた。結果
結論から言うと現時点のGPT4よりはるかに精度が良く上記問題点を解決した出力結果を得られた。 以下に解決した点とclaude3が勝っている点について記載する。解決した点
- 画像形式を読み取れるようになった。 GPT-4では日本語OCRができず、画像PDFは別途OCRサービスでデータ化してから構造化する予定だった。 しかしclaude 3では日本語OCRも可能になった。 正確にはPDFの画像形式は現状アップロードするとエラーになるので画像形式のPDFをPNGに変換し画像として添付したり、スクリーンショットをコピーしてctrl+Vで貼り付けしたりして読み取らせることができるようになった。 そしてそのまま必要な情報の加工、抽出を行える。 下に記載するが、テキストPDFだとPDFを丸ごとアップロードして必要なページのみ読み取ることができる。 画像形式PDFのOCR対応に期待。
- エラーで落ちることがなくなった。 これまで50回くらい試しているが、GPTのようにPythonでエラーが起きてしまうようなことはなく、確実に出力をしてくれるようになった。
- 精度が向上した。 GPTでは読み取れなかった、もしくは読み取っても列や行がずれ込むといったことがほぼなくなった。
改善点
- プロンプトが格段に短くなった。 GPTsではinstructionに情報を記載し、プロンプトも最適化したプロンプトでトークンの制限など書き方を考える必要があったが、とてもシンプルなプロンプトで期待の出力が得られるようになった
- テキストPDFの場合、ファイル丸ごとアップロードし、そこから目的の情報を抽出できるようになった。 GPTsの場合、貸借対照表だと貸借対照表のページのみ切り取ってアップロードしないと安定性に欠けていた。 しかしclaude3では決算書PDFを丸ごとアップロードし、指定した書類を見分けて抽出を行えるようになった。
まとめ
GPTsで1~2ヶ月ほど調整を行いながら開発をしていたが、その時間が一瞬で無に帰すレベルでAIの精度が向上していた。
GPT-5もおそらく同じレベルにまで到達するような気はするが、現状OCRの処理を行う場合は圧倒的にclaude3の方が有用であるといえる。