More than 1 year has passed since last update.

レシートを読み込んで家計管理をする記録～序章　OCRに関して～

Last updated at 2024-03-01Posted at 2024-03-01

レシートを読み込んでその日の支出額や店ごとの商品価格の比較を実施したい。

ので、ChatGPTのお力を借りつつ開発してみることにした。
なお、コストは０円で抑えたい。

まずはOCRに関して代表的なものをいくつか調査。

Google Vision API

・Googleが提供するクラウドベースのサービス。高精度で多言語に対応し、レシートやドキュメントのテキスト認識に強い。
・クラウドサービスなのでインターネット接続が必要。使用量に応じた課金があるが、精度は非常に高い。
・0~1000リクエスト/月は無料で、それ以上のリクエスト数だと料金発生する。
・確か昔APIキーは取得していたはずだが、ちょっと触っただけで使ってない。。

Tesseract

・オープンソースで無料利用可能。多言語に対応していて、カスタマイズや拡張が可能。
・精度は他と比べると劣る場合がある。
・オフラインでの使用やコスト面で優れている。

MMOCR

・MMLabの一環として開発されているオープンソースのプロジェクト。
・テキスト検出、認識、理解のための包括的なツールキット。
・OCR関連タスクのための多数のモデルが用意されている。
・カスタムデータセットや新しいモデルを簡単に追加できるよう設計されている。

思ったこと
・優先度は精度を基準として、Google Vision API＞MMOCR＞Tesseract
・Google Vision APIは無料で使える範囲でリクエスト数を抑えるようにする。
・とりあえず3つやってみて精度や特徴を比較してみる。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

レシートを読み込んで家計管理をする記録 ～序章 OCRに関して～

Google Vision API

Tesseract

MMOCR

レシートを読み込んで家計管理をする記録～序章　OCRに関して～