概要
今日とても驚いたことがあったので、簡潔にまとめようと思います。
Googleの検索能力の高さのことです。
もし時間があったらぜひ試してみてください。
経緯
日常の作業をしていたときのことです。
-
Google ドライブの中にあるファイルを検索しようとしたときのこと
-
「xx大学」というキーワードで検索した
-
いくつかのファイルがヒットした
ここまでで、まあもちろんキーワード検索をドライブ内で行っただけなので、
普通ですよね。
いくつかの書類がヒットしたわけです。
あれ、何でヒットした??
しかし、ここで、「あれ?」と思いました。
ヒットしたファイルの中には、pdfファイルがあったのです。
pdfファイルのタイトルは、なんら関係のない「document123.pdf」
みたいな感じでした。
最初はなにも思わなかったのですが、ふと、
「え、これってpdfの中身をその場でOCRしてんの!!!????」
と鳥肌が立ちました。
私は約50GBのファイルをドライブに入れているのですが、
検索時間は数秒でした。
「もし検索ワードに対してOCRかけて一致ヒットさせていたらやばくないか、、??」
と思いました。
OCRほんとに裏でやってんの??
横にいた同僚にこれを話したところ、
「pdfって画像としてではなくメタデータも保持しているんだっけね?」
となりました。
そこで、私は少しホッとしました。なぜなら、
「もしpdfがヒットした理由が、メタデータに私が検索したワードが含まれており、そこに対してヒットして表示された」
のかなと思ったからです。
メタデータに対して全文検索がかかったのなら、まあ理解できるな、と。
これを確かめたくなった私は、以下のことを試してみました。
- 手元にあった請求書をアイフォンで撮影
- 撮影された画像(HEICフォーマット)を、pdf, png, jpeg に変換
- Googleドライブにアップロード
- 請求書に書かれていたワード「三井住友」とか、「支払い期限」で検索
これで、どうなったと思いますか????
結果は、
- png
- jpeg
の画像ファイルが見事ヒットしました。(HEICだけヒットしませんでしたが)
たぶんOCRリアルタイムでやってるわ
いや、鳥肌が立ちましたね、
画像ファイルなので、確実に裏でOCRしていると思います。
また、その場でアップロードしたファイルなので、
何らかの分析が裏で前もって行われている可能性も低く、
「リアルタイムで検索ワードに対してOCRかけて結果を返している」
ということでしょう。
ファイルの中身すらGoogleは全部見えている
正直なところ、便利だという一方で、
「Googleは全てのファイル(画像も含めて)の中身をAIでこんなに簡単に解析できるのか」、
と怖い気持ちも覚えたというのが本音です。
終わりに
今回はこの「Googleの検索能力の高さ」
に驚き、怖ささえ覚えてしまったので記事を書いてしまいました。
これって別に驚くことではないんでしょうかね、もうこのくらいの検索能力は普通なのか、、?
今書いていて思いついたのですが、(流石に実現しないと思うけど、したら怖すぎる)
もしかしたら音声データや動画データもリアルタイムでキーワード検索可能、、?
「自分が喋っている音声データ」
をドライブに上げてみて、これがもし検索ワードに対して一致して返ってくる
みたいなこともあったりするんですかね、、???
もしかしたら動画もとか。
試した人がいたら教えてください。(私も試せたらやってみます。)
というわけで今回はこの辺で。
読んでいただきありがとうございました。
追記
会社の方に
こんな記事があることを教えていただき、
OCRはもう2年くらい前(もっと前かも?)から実装されていることがわかりました。
- Googleの検索能力の高さ、
- そして私の検索能力の低さ
がわかった
というオチもできたので、ここで終わりです。
読んでいただきありがとうございました。