レシートを読み込んでその日の支出額や店ごとの商品価格の比較を実施したい。
ので、ChatGPTのお力を借りつつ開発してみることにした。
なお、コストは0円で抑えたい。
まずはOCRに関して代表的なものをいくつか調査。
Google Vision API
・Googleが提供するクラウドベースのサービス。高精度で多言語に対応し、レシートやドキュメントのテキスト認識に強い。
・クラウドサービスなのでインターネット接続が必要。使用量に応じた課金があるが、精度は非常に高い。
・0~1000リクエスト/月は無料で、それ以上のリクエスト数だと料金発生する。
・確か昔APIキーは取得していたはずだが、ちょっと触っただけで使ってない。。
Tesseract
・オープンソースで無料利用可能。多言語に対応していて、カスタマイズや拡張が可能。
・精度は他と比べると劣る場合がある。
・オフラインでの使用やコスト面で優れている。
MMOCR
・MMLabの一環として開発されているオープンソースのプロジェクト。
・テキスト検出、認識、理解のための包括的なツールキット。
・OCR関連タスクのための多数のモデルが用意されている。
・カスタムデータセットや新しいモデルを簡単に追加できるよう設計されている。
思ったこと
・優先度は精度を基準として、Google Vision API>MMOCR>Tesseract
・Google Vision APIは無料で使える範囲でリクエスト数を抑えるようにする。
・とりあえず3つやってみて精度や特徴を比較してみる。