一通り調査したところで、以下3つのOCRに同じレシートを読み込ませて結果を比較してみる。
・Google Vision API
・Tesseract
・MMOCR
Google Vision API
・おおむね、というかほぼすべて正確に読み取れる。
・フォントの大きさや全角半角一切関係なくちゃんと読み取れてるのはありがたい。
・----------は読み取れていない模様。まあ使わないからよし。
・出力される順番が少しおかしい。小計・合計のあたりが小計項目名→合計項目名→消費稅項目名→小計金額→合計金額→消費稅金額になってる。
"領収証
株式会社 富士薬品
ドラッグセイムス 新河岸店
TEL 049-241-2715
2024年02月23日 (金)20時07分 #3969
内* キリン生茶2L
@149
1
SEIMS
内*
*
149
ワンポットエコティーバッグホウジ茶50袋
@386
1
386
-¥58
104
4909411069100
4901085621929
自動割引(クーポン) 15%
内 薬用ハンドソープ 詰替
@104
1
4513574023000
3点
小計
合計
(含む消費税等
(10%対象
消費税
( 8%対象
消費稅
¥581
¥581
¥44)
#104
¥9)
¥477
¥35)
*は軽減税率8%適用商品
¥581
現金
ブロンズ会員(今月) XXXXXXXXX7390
今回現金ポイント
5P
累計現金ポイント
1,110P
5P
今回ギフトポイント
1,859P
累計ギフトポイント
今月の御買上金額 (税抜) 8,364円
上記正に領収いたしました
店: 009554 レジ : 0002
登録番号
累計現金ポイントが400P貯まる毎に
200円の値引特典がご利用頂けます
ランクアップシステムは24年2月29
日をもちまして終了させていただき
ます。 24年3月から新サービス開始
(24年春頃予定) までの間、 セイム
スポイント2倍キャンペーンを実施
いたします。 ※一部対象外商品もご
ざいます。
001800617
T4030001007483
0900955400022402243969"
"領"
"収"
"証"
"株式会社"
"富士薬品"
"ドラッグ"
"セイムス"
"新河岸"
"店"
"TEL"
"049-241-2715"
"2024"
"年"
"02"
"月"
"23"
"日"
"("
"金"
")"
"20"
"時"
"07"
"分"
"#"
"3969"
"内"
"*"
"キリン"
"生"
"茶"
"2L"
"@"
"149"
"1"
"SEIMS"
"内"
"*"
"*"
"149"
"ワンポット"
"エコ"
"ティー"
"バッグ"
"ホウジ"
"茶"
"50"
"袋"
"@"
"386"
"1"
"386"
"-"
"¥"
"58"
"104"
"4909411069100"
"4901085621929"
"自動"
"割引"
"("
"クーポン"
")"
"15"
"%"
"内"
"薬用"
"ハンド"
"ソープ"
"詰替"
"@"
"104"
"1"
"4513574023000"
"3"
"点"
"小"
"計"
"合計"
"("
"含む"
"消費"
"税"
"等"
"("
"10"
"%"
"対象"
"消費"
"税"
"("
"8"
"%"
"対象"
"消費"
"稅"
"¥"
"581"
"¥"
"581"
"¥"
"44"
")"
"#"
"104"
"¥"
"9"
")"
"¥"
"477"
"¥"
"35"
")"
"*"
"は"
"軽減"
"税率"
"8"
"%"
"適用"
"商品"
"¥"
"581"
"現金"
"ブロンズ"
"会員"
"("
"今月"
")"
"XXXXXXXXX7390"
"今回"
"現金"
"ポイント"
"5P"
"累計"
"現金"
"ポイント"
"1,110P"
"5P"
"今回"
"ギフト"
"ポイント"
"1,859P"
"累計"
"ギフト"
"ポイント"
"今月"
"の"
"御"
"買上"
"金額"
"("
"税"
"抜"
")"
"8,364"
"円"
"上記"
"正に"
"領収"
"いたし"
"まし"
"た"
"店"
":"
"009554"
"レジ"
":"
"0002"
"登録"
"番号"
"累計"
"現金"
"ポイント"
"が"
"400P"
"貯まる"
"毎"
"に"
"200"
"円"
"の"
"値"
"引"
"特典"
"が"
"ご"
"利用"
"頂け"
"ます"
"ランク"
"アップ"
"システム"
"は"
"24"
"年"
"2"
"月"
"29"
"日"
"をもちまして"
"終了"
"さ"
"せ"
"て"
"いただき"
"ます"
"。"
"24"
"年"
"3"
"月"
"から"
"新"
"サービス"
"開始"
"("
"24"
"年"
"春"
"頃"
"予定"
")"
"まで"
"の"
"間"
"、"
"セイム"
"ス"
"ポイント"
"2"
"倍"
"キャンペーン"
"を"
"実施"
"いたし"
"ます"
"。"
"※"
"一部"
"対象"
"外"
"商品"
"も"
"ご"
"ざ"
"い"
"ます"
"。"
"001800617"
"T4030001007483"
"0900955400022402243969"
※読み取り結果が2回出ている件
「読み取ったすべてのテキスト」が出力された後に、「1行ずつ?順番に読み取ったテキスト」が出力されているが、どうやらtext_detectionメソッドのレスポンスの仕様らしい。
Tesseract
・数字は正確に読み取れているっぽい。
・半角カタカナは精度ひどい。
・フォントの大きい文字は出力すらされてない。。
・追加学習とかしないと使えなそうである。
株式会社 富士薬品
※ッグセイムス 新河岸店
IEL 049-241-2715
2024年02月23日(金)20時07分 #3969 隊
内* もリッ 生茶2L
@149 1
4909411069100
内* 。りyポ中エコイード97*約が茶50袋隙
- 0366 語 386 邊
4901085621929 |
自動割引(2-ポツ) 15% -W58
内 薬用!ツト"ソープ' 詰 8
。 9104還還
4513574023000
S点 請 \581 鹿
ニー
見、 キ#56] 剛
(含お消費税等 \44) 避培
(10%対象 \104 で
消費税 \9)
(8%対象 \477
消費税 \35 )
*は軽減税率8%適用商品
プロンズ会員(今月) XXXXXXXXX/G9U 全
今回現金ポイント 5P
累計現金ポイント
今回ギフトボポイント
累計ギフトボポイント
今月の御買上金額(税抜) % 364円
胃計現金ポイントが400P貯まる毎に
200円の値引特典がご利用頂けます
ランクアップシステムは24年2月29
日をもちまして終了させていただき
ます。24年3月から新サー ビス開始
(24年春頃予定 までの間、セイム
スポイント2倍キャンペーンを実好
いたします。 ※一部対象外商品もこ
上記正に領収いたしました
001800617
:009554 レジ" :0002
実録番号 T4030001007489
MM用
MMOCR
導入段階でトラブルが多発したため、いったん保留します、すみません。。。
やはり、精度の面でGoogle Vision APIを採用するのがよさそう。