何やらStackOverFlowを見ていて、「同じ環境で同じデータなのに結果が変わる」とか「数日後解析したら結果が変わってた」等々、まだベータ版らしさを見せてくれているのでこの投稿も時間が経ったらあっさり直ってるかもしれませんが、気づいたTIPSをば。
向きに注意
普通にデジカメで撮った写真をbase64変換して読ませてたんですが、どう見ても「6」なのに、「9」って認識するケースがありました。
縦写真だったので、「ああ、これはEXIFのorientationが悪さしてるな」とすぐ気づけたので、対処としては画像をEXIF情報なしでも正常にOS上で表示されるように書き換え。
画像情報としては横向きなのに、OSのビューワーがEXIFを使ってうまいこと縦向きに修正して表示してくれるので、普段気付きにくいんですよね。
この辺も自動的にやってくれたら楽なんですが、リクエストパラメータにLatLngがあるのを見ても、多分EXIF解析までは今後もやる気がないと推測。
正式リリース時にどうなってるかな〜
認識対象に注意
TEXT_DETECTIONにて、ある写真で文字列A、B、Cが写っているのにAしか認識されなかった時。
解像度的にはBもCもはっきりしているのに何で認識してくれないのか?
ということでB、Cを同じ解像度で別写真として切り出すと、きちんと認識してくれました。
どうやら解像度で認識可能かどうかを判別しているというより、写真全体の中での比として目立つサイズの文字しか認識してくれないようです。
ということは、矩形で文字が写っているところを切り出してリクエストに送るような真似をしないと、「全部認識したい」というニーズには答えてくれないんですかね。
一枚の写真サイズが4MB制限なので、その中の認識可能なもの全て分析してたらパフォーマンス的に厳しい、とか、「そんな目立たない文字、認識しなくてもいいでしょ?」という思想があるとか、色々ありそう。
これも正式リリース時にどうなってるか期待!
ていうかその時には自分でTesseract的にトレーニングデータ登録できる機能があったら嬉しいんだけどなぁ。