はじめに
2024年9月25日、Meta社は最新の大規模AIモデルであるLlama 3.2をリリースしました。このモデルは画像を理解し、それをテキストとして表現する能力を持つ非常に強力なツールです。Llama 3.2は11Bと90Bのサイズで提供されております。本記事では、IBMのwatsonx.aiプラットフォームを使用して、Llama 3.2 90Bビジョンモデルの実力を実際に体験し、11Bモデルとの比較も行います。
watsonx.aiでのLlama 3.2の活用
Llama 3.2の性能を試すためには、IBMのwatsonx.aiプラットフォームを利用します。watsonx.aiはさまざまなAIモデルを実行できる強力なAI開発ツールで、Llama 3.2を用いた画像解析やテキスト生成のデモを簡単に行うことができます。
watsonx.aiへのアクセス手順
- IBM watsonx.aiの公式ページにアクセス。
- アカウントを作成し、必要なセットアップを行います(詳細手順はこちら)。
- watsonx.ai内でllama-3-2-11b-vision-instructまたはllama-3-2-90b-vision-instructモデルを選択し、実験します。(UI利用方法はこちら)
実験
タスク1 表のOCR
ここでは日本語の表の読み取り機能を確認します。
かなり細かい表であるのですが、結論としては90Bは性能が高く、11Bは一部間違えておりました。具体的に間違えた箇所もあとで記載しております。
プロンプト:
この画像の表をmarkdown形式で書き起こして。
Llama 3.2 11B:
豆類 | 全粮絞物 | ナッツ類 | |
---|---|---|---|
米菓が豊富 | タンパク質、食物繊維、抗酸化物質、鉄分 | 食物繊維、ビタミンB群、マグネシウム、セレン | 健康的な脂肪、ビタミンM、マグネシウム、亜鉛、リノリン |
健康への効果 | コレステロールを下げ、心臓の健康をサポート、血栓値を調整 | 消化を助け、炎症を抑え、体重管理をサポート | 肌の健康を改善、酸化ストレスを軽減、脳と心臓の健康をサポート |
推奨摂取量 | 1/2~1カップ/日 | 1日3~5サーピング(1サーピング=1/2カップ調理済み) | 1オンス(約ひと握り)/日 |
最適な食べ方 | スープ、シチュー、サラダ、または調理 | 食事のベースとして、サラダに、または野菜と混ぜて | 生、ロースト、トライルミックス、サラダやヨーグルトに追加 |
切となる食品 | 黒豆、レンズ豆、ヒヨコ豆、金時豆 | 玄米、キウア、オーツ麦、大麦 | アーモンド、クルミ、カシューナッツ、ビスタチオ |
その他の栄養素 | 菜薯、カルリウム | マンガン、鉄分、オメガ3脂肪酸 | タンパク質、食物繊維、オメガ3脂肪酸 |
食べるのに最適な時間 | 昼食または夕食 | 一日中、特に朝食時 | おやつ、または食事に追加して |
アレルギーリスク | 低リスクだが、一部の人には豆類アレルギーがある場合も | 種だか、グルテン感受性(グルテンを含まない食物でない場合) | ナッツアレルギーのリスクが高い(特にピーナッツや木の実) |
保存期間 | 乾燥:最大1年、調理済み豆:冷蔵で3~5日 | 冷凍で最大6ヶ月保存 | 凝付き:3ヶ月、冷蔵で最大1年 |
Llama 3.2 90B:
特徴 | 豆類 | 全粒穀物 | ナッツ類 |
---|---|---|---|
栄養が豊富 | タンパク質、食物繊維、抗酸化物質、鉄分 | 食物繊維、ビタミンB群、マグネシウム、セレン | 健康的な脂肪、ビタミンE、マグネシウム、亜鉛、リン |
健康への効果 | コレステロールを下げ、心臓の健康をサポート、血糖値を調整 | 消化を助け、炎症を抑え、体重管理をサポート | 肌の健康を改善、酸化ストレスを軽減、脳と心臓の健康をサポート |
推奨摂取量 | 1/2~1カップ/日 | 1日3~5サーヴィング(1サーヴィング=1/2カップ調理済み) | 1オンス(約ひと握り)/日 |
最適な食べ方 | スープ、シチュー、サラダ、または副菜として調理 | 食事のベースとして、サラダに、または野菜と混ぜて | 生、ロースト、トレイルミックス、サラダやヨーグルトに追加 |
例となる食品 | 黒豆、レンズ豆、ヒヨコ豆、金時豆 | 玄米、キヌア、オーツ麦、大麦 | アーモンド、クルミ、カシューナッツ、ピスタチオ |
その他の栄養素 | 葉酸、カリウム | マンガン、鉄分、オメガ3脂肪酸 | タンパク質、食物繊維、オメガ3脂肪酸 |
食べるのに最適な時間 | 昼食または夕食 | 一日中、特に朝食時 | おやつ、または食事に追加して |
アレルギーリスク | 低リスクだが、一部の人には豆類アレルギーがある場合も | 稀だが、グルテン感受性(グルテンを含まない物でない場合) | ナッツアレルギーのリスクが高い(特にピーナッツや木の実) |
保存期間 | 乾燥豆:最大1年、調理済み豆:冷蔵で3~5日 | 冷暗所で最大6ヶ月間保管 | 殺菌き:3~6ヶ月、殺菌なし:冷蔵で最大1年 |
Llama 3.2 11Bの表の間違い:
誤:全粮絞物 → 正:全粒穀物
誤:ビタミンM → 正:ビタミンE
誤:リノリン → 正:リン
誤:血栓値を調整 → 正:血糖値を調整
誤:サーピング → 正:サービング
誤:キウア → 正:キヌア
誤:凝付き → 正:殻付き
Llama 3.2 90Bの表の間違い:
誤:サーヴィング → 正:サービング
誤:殺菌き → 正:殻付き
タスク2 表へのQ&A
ベンチマークに関する質問をしてみました。結果として、直接質問(プロンプト1)よりも、まずは書き起こしてから記述(プロンプト2)する方法がうまくいきました。
入力画像:Llama 3.2の紹介サイトからベンチマークに関する画像を利用しました。
プロンプト1 :
図のベンチマークにおけるMMMU-Pro, Standardの項目で、もっとも性能が良かったモデルは何か?
Llama 3.2 11B:
MMMU-Pro, Standardの項目で、もっとも性能が良かったモデルはLlama 3.2 90Bです。
MMMU-Pro, Standardのベンチマークで、Llama 3.2 90Bは33.8スコア、Llama 3.2 11Bは33.0スコア、GPT-4o-miniは42.3スコア、Claude 3 は27.3スコアでした。
Llama 3.2 90B:
ベンチマークにおけるMMMU-Pro, Standardの項目で、もっとも性能が良かったモデルはGPT-4o-miniです。MMMU-Pro, Standardの性能は42.3で、他のモデルよりも高いです。GPT-4o-miniは、GPT-4の最も小さいモデルで、パラメータ数が約7億です。MMMU-Pro, Standardのベンチマークでは、GPT-4o-miniの性能は、Llama 3.2 11Bの約1.2倍、Llama 3.2 90Bの約1.6倍です。
プロンプト2 :
図のベンチマークにおけるMMMU-Pro, Standardの項目で、もっとも性能が良かったモデルは何か?まずはスコアを書き起こしてから回答して。
Llama 3.2 11B:
関連表のスコアを書き出し
MMMU-Pro, Standard 10 opts, test
Llama 3.2 11B: 33.0
Llama 3.2 90B: 45.2
Claude 3 - Haiku: 27.3
GPT-40-mini: 42.3
最高スコアが記載されているモデルを回答
最も高いスコアは 45.2 で、Llama 3.2 90Bが記載されている。したがって、最も高いスコアを記載されているモデルは Llama 3.2 90B です。パフォーマンスが最も良かったモデルは、Llama 3.2 90Bです。
Llama 3.2 90B:
MMMU-Pro, Standardのスコア書き起こし
モデル名 スコア
Llama 3.2 11B 33.0
Llama 3.2 90B 45.2
Claude 3 – Haiku 27.3
GPT-4o-mini 42.3
もっとも性能が良かったモデル
スコア書き起こしを参考に、もっとも性能が良かったモデルはClaude 3 – HaikuではなくLlama 3.2 90Bであることがわかります。そのスコアは45.2です。
タスク3 地図から東京駅の場所を見つける
地図表の場所の読み取りは苦手のようでした。
プロンプト1 :
この地図のどの部分に東京駅があるのでしょうか?
Llama 3.2 11B:
この地図から東京駅があることがわかります。地図上の白い部分に東京駅があることがわかりますが、左上の青い部分と右下の黄色い部分は、地図上には東京駅が載っていません。白い部分が、東京駅の駅構内で、青い部分と黄色い部分は、それぞれ東京駅が所在している一帯の東西を及び、北から南へと走る道路の両側の地域を表しています。
Llama 3.2 90B:
東京駅は、画像中央右の、スプートグリーン色に塗りつぶされた、JRの路線が交差する部分に位置しています。
その部分の画像左側に、マルチボールド色で、「丸の内IC」と表示されています。 Tokyo Stationは英語では東京駅です。
プロンプト2:
この地図を説明してから、東京駅が地図のどの部分にあるのか場所を教えてください。
Llama 3.2 11B:
この地図は日本の都道府県の中心地である東京の中心部を中心に描かれている地図です。
この地図は東京都の都心部である千代田区の中心部から西に進んで進み、隣接する港区の西部に位置しています。
地図上では、概ね東京駅がこのように、地図の真ん中で見られます。
この地図の中心部に位置する駅を眺めると、丸の内駅、JR線の新宿駅などが見られます。
東西線の内幸町駅なども眺められます。
地図の北側には、JR山手線・京浜東北線の秋葉原駅などが見られます。
地図の東側には、京橋駅や、東京駅の東側にある日本橋駅なども見られます。
地図の南側には、JR線の新橋駅や、南北線の銀座一丁目駅などが見られます。
地図の西側には、JR線の新宿駅や、丸ノ内線の新宿三丁目駅などが見られます。
このように、地図上には、多くの東京駅の周辺の駅が見られます。
この地図は、東京駅を中心に、周辺の駅や有名な建物や通りなどが描かれています。
この地図の中心部に位置する駅を眺めると、東京駅の周辺の駅について、利用が可能です。
Llama 3.2 90B:
この地図は、東京都の東京駅を中心に、JR線の路線や駅、地下鉄路線や駅、主要な道路などを示したものです。地図の右半分が丸の内側、左半分が日本橋側です。
また、地図の左上に表示されている東京湾に繋がる運河は、「隅田川」です。地図の左下は、「浅草」です。地図の右上には「皇居」があります。地図の右上から右中央にかけては、「東京駅」があります。地図の右中央から右下に向かって表示されているのは、「銀座」です。地図の最上部に緑色で表示された部分は、「皇居外苑」です。
この地図に表示されている東京駅は、右上から中央にかけての黄色い部分です。皇居の東側、隅田川の西側、丸の内にある、都内でも有数の拠点駅のひとつです。