はじめに
OCI Generative AI AgentsのObject Storageを利用したデータソースにマルチモーダル解析機能が2024年12月18日に実装されました。
本機能を利用してチャートやグラフの情報がどの程度解析できるか検証してみました。
OCI Generative AI Agentsについて
OCI Generative AI Agentsの基本的な機能については下記にまとめていただいています。
今回はこちらで紹介いただいている、データソースをObject Storageとして利用したAgentの拡張機能の検証となります。
つかいかた
今回は総務省の令和6年度情報通信白書のグラフが読めるかを試していこうかと思います。
ダウンロードしたPDFをナレッジベース用のバケツにアップロードします。
ナレッジベースが無い場合
OCI Generative AI Agents > Knowledge Bases > Create knowledge base
を選択し、ナレッジベースを作成します。
ナレッジベース名や、必要事項を記入した後、下記手順でデータソースを作成します。
Specify Data Sourceを選択し、名前と説明を入力します。
Enable multi-modal parsing のチェックを有効にすることで、マルチモーダル解析機能が利用できます。
先ほどpdfをアップロードしたバケツとファイルを選択し、Createをクリックして作成します。
(現在はpdfとtxtのみ対応しています)
既にナレッジベースがある場合、
Knowledge Bases > <ナレッジベース名> > データソースのリンクをクリック > [Edit]
で利用できる、データソースの変更から Enable multi-modal parsingを有効にできます。
ナレッジベースをAgentに紐づけ
ナレッジベースの作成が完了したら、Agentにナレッジベースを紐づけます。
OCI Generative AI Agents > Agents > [Edit]
チャットの実行
[Launch Chat]からチャットを実行します。
ChatGPTの1億ユーザー達成の期間について言及されていたので、比較としてInstagramがどれくらいの期間で1億ユーザー達成したかを聞いてみます。
30か月。と、やけにぶっきらぼうな答え方ですが、View citationsをクリックすると情報源を表示できます。
51pに記載があるようです。
たしかに30か月のようですね。
続いて世界のICTの市場規模について聞いてみましょう。
117,118ページに記載があるようです。
単位はあっていますが、数値がずれていて、直近3年が前半に来ていますね。5年という指定が難しかったのでしょうか。
解答に至るための情報源を確認することができるので、念のため確認するのがよいかと思います。
続いてOracle Cloudの市場での立ち位置について聞いてみましょう。
citationsの1に記載されているページ番号を確認したところ、Source textの内容も無く、関係のない内容のページでした。
citationsの2以降に記載されている、172,173ページには下記のような記載があり、こちらを情報源にしていると思われます。
まだリリースして間もないからか、不安定な感じは否めませんね。
まとめ
少し不安定な部分もありますが、PDFのグラフを読み取れるようになっていることがわかりました。
今回はテキストを含むグラフからのデータ抽出でしたので、すべて画像のグラフの場合は別途検証が必要だと考えられます。 検証したところ、2025年1月現在、画像のみのpdfファイルからはOCRのように読み取ることはできないようです。
性能と精度についてはまだ発展途上という感じは否めませんが、今後のアップデート次第でかなり使えるものになる予感がしています。