はじめに
Microsoftが2024年の注目のAIトレンドの一つとしてマルチモーダルAIを挙げていました。本記事ではその中でも注目度の高いAzure OpenAI GPT-4 Turbo with visionについてMicrosoftならではの特徴をまとめていきます。
Azure OpenAI GPT-4 Turbo with vision+Azure AI Vision Enhancementの特徴
Azure OpenAI GPT-4 Turbo with visionはテキスト・画像・動画の組み合わせからテキストを生成するモデルです。追加費用が必要になりますが、Microsoftが従来より提供していたAzure AI VisionサービスのAzure AI Vision Enhancement機能をAzure OpenAI GPT-4 Turbo with visionの中で有効にすることができるようになっています。それにより以下で紹介する3点が可能となり、Azure OpenAI GPT-4 Turbo with visionのユースケースをさらに広げています。以下の画像はMicrosoftのオンラインイベント(AI Visionaries Circle presents "Azure AI Vision: How to enhance your apps with Computer Vision, GPT-4, and GPT-4 Turbo models with Vision")から引用しています。
オブジェクトを視覚的に区別する
画像内の重要な要素を視覚的に区別し、生成したコンテンツの該当する箇所と紐づけることが可能です。
このケースでは、プロンプト”Recommend some fashion items from this magazine picture”と写真をインプットとしてユーザーが提供しています。アウトプットとして写真の男性が身に着けているアイテムのコーディネートについて解説しており、”a fur collar”、"a classic turtleneck sweater"、"a chic brown leather belt"、"The ensemble"、”a pair of well-fitted dark blue trousers”が写真内のオブジェクトとして認識され青枠で囲われています。さらに”a pair of well-fitted dark blue trousers”は画像と生成されたテキスト共に黄色でハイライトされています。
数値の読み取り精度を向上させる
レシートの写真から各レシートの金額を抽出するタスクを行う例です。Azure OpenAI GPT-4 Turbo with Vision単体での実行結果とAzure AI Vision Enhancementを有効にした場合の結果を比較しています。
上記の画像は左から、”レシートの写真とユーザーからのプロンプト(緑枠)”、”Azure OpenAI GPT-4 Turbo with Visionによる抽出結果(赤枠)”、”Azure AI Vision Enhancementを有効にした場合の抽出結果(青枠)”の順に並んでいます。図の中央で赤枠内のオレンジ点線枠で示した数値はAzure OpenAI GPT-4 Turbo with Visionにより1枚目のレシートの総額を2616.28と抽出しています。赤点線枠で示した数値は1枚目のレシートの総額を比較のためにコピーしたもので2,516.28です。2桁目が6と5で異なっており、数値を正確に抽出できていないことがわかります。他の4枚のレシートの抽出結果でも同様に数値の抽出で誤りがありました。図の右側で青点線枠で示した数値はAzure AI Vision Enhancementを有効にした場合の結果で2516.28と正しく抽出できています。Azure AI Vision Enhancementを有効にすることでOCR機能を活用し生成AIと組合せた精度の高い数値の抽出ができる例のご紹介でした。
動画をプロンプトに挿入する
Azure OpenAI GPT-4 Turbo with Visionではテキスト・画像をインプットとして受け付けますが、Azure AI Vision Enhancementを有効にすることで簡単に動画にも対応させることができます。
上記の画像の上部では、火事の動画と動画の説明を求めるプロンプトをユーザーが生成AIチャットボットにインプットしています。画像の下部はユーザーのプロンプトに対する回答として”連続した画像を確認していること。火や煙が燃え広がっていること。消火活動がまだ行われている様子がないこと。火事の原因は画像からは読み取れないこと。迅速な対応が必要であること。”を説明しています。生成された回答の冒頭からも分かる通り、Azure AI Vision Enhancementによって前処理として動画の中からユーザーのプロンプトに関係あるフレームを抽出し、Azure OpenAI GPT-4 Turbo with Visionに対して連続した画像としてインプットされています。本来は動画形式のインプットに対応していませんが、Azure AI Vision Enhancementによりそれが可能になった例です。
本機能についての詳細はMicrosoftのブログもご確認ください。
まとめ
Azure OpenAI GPT-4 Turbo with visionについてAzure AI Vision Enhancementを活用したMicrosoftならではの特徴をまとめました。OCRとの連携や動画への対応など、自身で他のサービスを活用して仕組みを構築しなければならなかったところを、シームレスな連携により簡単に実装できるように整理されていました。これらの仕組みが具体的にどのように活用されているのかは別の記事でまとめたいと思います。