はじめに
Meta社が2024年9月25日新しくリリースしたLlama 3.2は、画像を理解してテキストとして出力する能力を持つ大規模なAIモデルです。このモデルは、11Bと90Bというサイズで、画像の内容を深く理解し、さまざまなタスクに活用できるのが特徴です。本記事では、IBMのwatsonx.aiを使って、このLlama 3.2 90Bビジョンモデルの性能を実際に試していきます。
Llama 3.2: Revolutionizing edge AI and vision with open, customizable models
Llama 3.2とは
Llama 3.2は、Meta社が開発した最新の大規模言語モデルです。今回リリースされたLlama 3.2では、画像とテキストの両方を同時に入力して、統合的に理解することができます。特に、Llama 3.2 90Bモデルは、文書の理解、グラフや表の解釈、画像キャプションの生成などのタスクで高い性能を持っています。
Llama 3.2は、画像認識とテキスト処理を組み合わせて新しい可能性を引き出すことを目指しています。例えば、ビジネスデータを解析するためのグラフ解釈や、地図を使った道案内のようなユースケースに役立ちます。また、Llama 3.2はオープンソースで提供されているため、開発者が自分のプロジェクトに合わせてモデルを自由に調整できる点も魅力です。
watsonx.aiへのアクセス
Llama 3.2の性能を実際に試すためには、IBMのwatsonx.aiプラットフォームを使用します。watsonx.aiは、さまざまなAIモデルを実行できる強力なAI開発ツールです。この環境を通じて、Llama 3.2を使った画像解析やテキスト生成のデモを簡単に実施することが可能です。
アクセス手順は以下の通りです:
- IBM watsonx.aiの公式ページにアクセスします。
- アカウントを作成し、各種セットアップします(詳細はこちら)。
- watsonx.ai内のllama-3-2-90b-vision-instructモデルを選択し、デモを実行します。(UIの利用方法はこちら)
これにより、Llama 3.2の多様な機能を活用して、画像からの情報抽出や質問応答が簡単に行えます。
実験
1. 英語の表をMarkdownに書き起こし、日本語に翻訳
まず、Llama 3.2を使って、画像内にある英語の表をMarkdown形式に変換します。このステップでは、表の内容を簡単に抽出して、わかりやすい形式で出力します。その後、その表を日本語に翻訳し、表示してみます。
まずは画像の中にある栄養情報の表を書き起こします。この表には豆類、全粒穀物、ナッツ類の特徴や健康効果などがまとめられています。以下の表のスライドに貼り付けて画像として保存して、プロンプトで「markdown形式で表を書き起こして。」と指示します。
-
画像内の表
Feature Beans Whole Grains Nuts Rich in Nutrients Protein, Fiber, Antioxidants, Iron Fiber, B Vitamins, Magnesium, Selenium Healthy fats, Vitamin E, Magnesium, Zinc, Phosphorus Health Benefits Lowers cholesterol, supports heart health, regulates blood sugar Aids digestion, lowers inflammation, supports weight management Improves skin health, reduces oxidative stress, supports brain and heart health Recommended Intake 1/2 to 1 cup per day 3 to 5 servings per day (1 serving = 1/2 cup cooked) 1 ounce (about a handful) per day Best Way to Eat Cooked in soups, stews, salads, or as side dishes As a base for meals, in salads, or mixed with vegetables Raw, roasted, in trail mixes, added to salads or yogurt Example Foods Black beans, Lentils, Chickpeas, Kidney beans Brown rice, Quinoa, Oats, Barley Almonds, Walnuts, Cashews, Pistachios Additional Nutrients Folate, Potassium Manganese, Iron, Omega-3 fatty acids Protein, Fiber, Omega-3 fatty acids Best Time to Eat Lunch or dinner Throughout the day, especially breakfast Snack or added to meals throughout the day
結果は以下になります。うまく読み取りできることが確認できます。
さらに、日本語訳することも可能です。
2. 表への質問を行う
次に、画像内の表に関する具体的な質問を行います。例えば、「どの食品がどの栄養素を多く含んでいますか?」といった質問をしてみます。ここでは、先ほどとは異なる新しいスレッドを立ち上げ、画像に対して直接、かつ日本語で質問してみます。
結果は以下になります。うまく読み取りできることが確認できます。
3. 日本語の表をMarkdown形式に書き起こす
最後に、日本語で記載された表を画像から読み取り、Markdown形式に書き起こします。このステップでは、日本語の表現をMarkdownに正確に変換できるかを確認します。
-
画像内の表
特徴 豆類 全粒穀物 ナッツ類 栄養が豊富 タンパク質、食物繊維、抗酸化物質、鉄分 食物繊維、ビタミンB群、マグネシウム、セレン 健康的な脂肪、ビタミンE、マグネシウム、亜鉛、リン 健康への効果 コレステロールを下げ、心臓の健康をサポート、血糖値を調整 消化を助け、炎症を抑え、体重管理をサポート 肌の健康を改善、酸化ストレスを軽減、脳と心臓の健康をサポート 推奨摂取量 1/2〜1カップ/日 1日3〜5サービング(1サービング=1/2カップ調理済み) 1オンス(約ひと握り)/日 最適な食べ方 スープ、シチュー、サラダ、または副菜として調理 食事のベースとして、サラダに、または野菜と混ぜて 生、ロースト、トレイルミックス、サラダやヨーグルトに追加 例となる食品 黒豆、レンズ豆、ヒヨコ豆、金時豆 玄米、キヌア、オーツ麦、大麦 アーモンド、クルミ、カシューナッツ、ピスタチオ その他の栄養素 葉酸、カリウム マンガン、鉄分、オメガ3脂肪酸 タンパク質、食物繊維、オメガ3脂肪酸 食べるのに最適な時間 昼食または夕食 一日中、特に朝食時 おやつ、または食事に追加して アレルギーリスク 低リスクだが、一部の人には豆類アレルギーがある場合も 稀だが、グルテン感受性(グルテンを含まない穀物でない場合) ナッツアレルギーのリスクが高い(特にピーナッツや木の実) 保存期間 乾燥豆:最大1年、調理済み豆:冷蔵で3〜5日 冷暗所で最大6ヶ月間保管 殻付き:3〜6ヶ月、殻なし:冷蔵で最大1年
結果は以下になります。「サービング」を「サーヴィング」、「殻付き」を「營養き」と一部間違いはありますが、概ね読み取りできることが確認できます。(必要に応じて、watsonx.aiのUI画で更新ボタンを押すと、再度生成してくれます。
おわりに
Llama 3.2とIBM watsonx.aiを活用したこのデモを通じて、画像から情報をどのように効果的に取り出し、それに基づいて質問に答えることができるかを確認しました。Llama 3.2の90Bモデルは、画像と言語の理解を融合することでとても強力であり、ビジネス文書の分析や多言語対応のアプリケーション開発に大きな可能性を持っています。みなさんもぜひ試してみてください!