More than 1 year has passed since last update.

Amazon BedrockのAnthropic's Claude 3 Sonnetモデルでグラフ画像を解読させてみた

Last updated at 2024-03-06Posted at 2024-03-05

2024年3月4日にAmazon BedrockにClaude 3が登場しました。
https://aws.amazon.com/jp/about-aws/whats-new/2024/03/anthropics-claude-3-sonnet-model-amazon-bedrock/

(2024年3月6日追記) AWSブログの日本語訳も出ました。電光石火で巷にClaude情報が溢れ始めています。
https://aws.amazon.com/jp/blogs/news/unlocking-innovation-aws-and-anthropic-push-the-boundaries-of-generative-ai-together/

グラフ画像をどのように解読できるか、取り急ぎ3つほど試してみました。

環境：

Amazon Bedrock (オレゴンregion)
Claude 3 Sonnet v1
チャットのプレイグラウンドで動作を確認

検証日：
2024年3月5日(JST)

人口ピラミッドの画像

https://dashboard.e-stat.go.jp/ のサイトで公開されている人口ピラミッドのグラフをスクショした画像を読み込ませてみました。

画像はこちら

結果はこちら

ちゃんと読み取ってくれているようです。内容も妥当なものに見えますが、本当に画像から読み取ったのか、元々学習しているデータから生成しただけなのかは、これでは判別できませんでした。

PPT資料（架空）のグラフ画像

業務での活用度合いをみるため、社内資料を想定した架空のPowerPoint 1ページを作り、画像化して読み込ませてみました。

画像はこちら

結果はこちら

このデータは私が今作った、Claudeに事前に学習されていないデータですが、ちゃんと傾向を読み取っているようです。欄外の備考のコメントや、赤枠の意味などもちゃんと答えてくれました。なかなか優秀です。

Excel方眼紙データの画像

政府統計 https://www.e-stat.go.jp/ の国勢調査のExcelファイルをダウンロードして、Excelファイルの画面をスクショして読ませてみました。

画像はこちら

結果はこちら

「５年おき」という部分は読み取れているようですが、「1920年から2015年まで」は間違っているかも。データの画像は1920年〜1960年の部分しかないですし、元データも1920年〜２０００年(令和2年）です。ただ、令和2年の1つ前(2020年-5年=2015年)までのデータだとClaudeが推測したのだとすると、それはそれで計算面の機能がすごそうです。ここは要検証。
データの傾向も一応答えてくれましたが、こちらは学習された情報から答えている可能性はあるかもしれません。

考察

テキスト + イメージのタスクには、業務利用においてもかなり使えそうな印象です。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up