はじめに
を見て、「PDFが直接アップロードできるんだー。PDFのスクショを撮っていたわー」と思ったのです。それと同時に、「そもそも、これってどういう仕組み?」となりました。こんなに便利ならAPI経由で大量に処理したいです(c.f. 前作(机から離れて論文を大量に読む方法(NGK2024S)))。
ぼくが考えた最強の『秘技スクショ』の敗北を感じつつ、よくある方法を予想すると、
- PDFのテキストを抽出(pydpf等を使って)
- テキスト部分とチャットの内容を入力にして推論
- (長文の場合、複数回に分ける)
というアプローチが考えられます。この場合、イラストや図の部分を扱えません。しかし、実はもっと凄い仕組みになっているかもしれません。『秘技スクショ』は本当に敗北したのか、それを検証してみました。
実験方針
PDFに含まれるイラストの説明ができるかを検証しました。
テストデータ
使うPDFは https://arxiv.org/abs/2405.20343 の論文のものとしました。
画像が使われていそうなcs.CVのカテゴリーの中で、先頭にあったものを採用しました。狙い通り、次の画像のようなイラストが冒頭にありました。
もちろん、論文中には、この画像にどういうものが映っているかは書かれていません。
実験結果
質問方法
このようにPDFをアップロードして「この論文の冒頭にある画像の特徴を整理して。あと、どんなものが映っているのかリストアップして。」のように質問しました。
回答
回答はこのようになりました。画像が読めていないため、映っているものの一覧はデタラメです。質問に対応する画像がFigure 1のことだということは正しく分かっているようですが、勝手に想像して回答しています。
念のため、10回生成させましたが、どれもデタラメでした。家具が映っていると回答している場合もありました。
比較(画像アップロードの場合)
質問方法
同じ質問を1ページ目の画像で投げつけてみました。
回答
画像をこのページ全体のことと勘違いしている節はありますが、イラストに映っているものがそれらしく回答されています。なので、認識能力の問題ではなさそうです。
補足(キャラクターの名前を挙げれる?)
回答をよくよく見ると有名なキャラクターの名前を出していません。ひょっとして分からないのか・わざと回答しなようにしているのか心配になりました。
次のように、イラスト部分だけを入力してみると「バズ・ライトイヤー(トイ・ストーリー)」と回答してくれたので杞憂だったようです。ただ、ピカチュウは回答にはありませんでした。解像度が低かったり関係ない部分が多いと精度が落ちるのかもしれません。
まとめ
実験の通り、PDFをアップロードしても、GPT-4oに画像認識能力があるにも関わらずイラスト部分を無視している可能性が高いです(将来的に変更される可能性もありますが)。予想通り、テキスト部分だけ抽出する処理をしているようです。なので、『秘技スクシュ』は負けていないと言えるでしょう(少しずつしか入力できないですので、全体まとめはPDFアップロードが適切)!
スクショを用いると、図・イラストが扱えること以外に、数式が扱いやすかったり、複雑なレイアウトのページに相性が良さそうだったりします。GPT-4oはGPT-VからOCR能力が大幅に上がり、PDFを画像にして入力する使い方に可能性が出てきました。そのうち、整理ができたら記事にまとめたいです。