More than 1 year has passed since last update.

GPT-4 Turbo with Vision の Add your data 機能が画像ファイルに対応、画像データによるRAGを試そう！

Last updated at 2024-02-20Posted at 2024-02-18

はじめに

2023年12月ごろに、Azure OpenAI で GPT-4 Turbo with Vision が Public Preview となりました。GPT-4 Turbo with Vision について、 Azure OpenAI Studio と Azure AI Studio のチャットプレイグラウンドで Add your data 機能 （日本語表記では 「データの追加(プレビュー)」 機能）から画像をアップロードして、画像データの検索を行うことができるようになりました。この Add your data 機能を使うことで、

画像による画像検索
類似画像検索
画像データによるグラウンディング (RAG)

を試すことができます。
今回はその Add your data を実際に試していきたいと思います。
(※本記事は執筆時点の情報に基づいております。)

GPT-4 Turbo with Vision の概要については他の技術ブログでも記事があるかと思うので、今回は割愛させていただきます。

また本記事で行う手順は、 MS Learn のドキュメントとしてこちらに記載されているものです。

手順

リソースについて

GPT-4 Turbo with Vision が使えるリージョンは下記になります。
東日本リージョンが最近追加されました。

Japan East (2024/2月追加)
US East
Sweden Central
Switzerland North
Australia East

Azure OpenAI のリソースを作成したあと、モデルのデプロイを行います。モデルとして gpt4 を、モデルバージョンは vision-preview を選択します。

チャットプレイグラウンド

チャットプレイグラウンドに移動し、まず右側にある構成タブのデプロイを、GPT-4 Turbo with Vision のモデルに指定します。その後、左側の データの追加（プレビュー） のタブから、「＋データソースの追加」 を選択します。

ここから画像データを用いたインデックスを作成することができます。
データの追加方法は

から選ぶことができます。
既存の Blob Storage にデータをアップロードする場合や、既に Azure AI Search のインデックスを作成してある場合は 1 か 2 を選んでください。
Azure AI Search でインデックスを作成する際はこちらの Github リポジトリを参考にしてください。

今回はローカルにある画像ファイルをアップロードして試したいと思いますので、3つめの Upload Files を選択します。

File をアップロードする Blob Storage, AI Search リソースを選択します。
リソースがない場合は適宜、新規作成してください。

CORS 設定は、あるドメインで実行されている Web アプリケーションが別のドメイン内にあるリソースにアクセスできるようにする HTTP 機能です。CORS設定はオンにする必要があります。詳細についてはドキュメントでご確認ください。

作成されるインデックスには、画像データのインデックスと識別できるように '-v' がインデックス名の後につくようになっています。

実際に画像をアップロードします。今回は簡単に、Microsoft の Surface シリーズの画像をアップロードします。そして、各画像にメタデータを加えていきます。今回はメタデータとしてそれぞれ、機種名をいれていきます。

保存し、データがインジェストされ、インデックスが作成されるのを待ちます。作成されたら、今回はシステムメッセージを「あなたはPCの機種について答えるアシスタントです。」と変更します。

試した結果

画像とともに「このパソコンの機種を教えて」と聞いてみましょう。
機種が Laptop5 だと教えてくれましたね！これは合っています。

無事に画像による画像検索ができました。

GPT-4 Turbo with Vision の Preview が発表された時期に、こちらの Tech Blogに載っていた Demo 動画もご紹介します。

こちらの動画は英語ですが、テントやアウトドア用品のECサイト上に、チャットUIが追加されています。ユーザーが、この画像に似たテントを＄200 以下で提案してほしい、と聞くと、オレンジの似たテントかつ＄200 以下のものを探しだし、自然言語で回答しています。

(Demo動画より画像引用)

このような形で、画像による画像検索や、類似画像検索などのユースケースは今後増えていきそうですね！

注意点

大規模言語モデル全般に言えることですが、ハルシネーション（間違った回答を生成すること）が起きる場合があります。今回の Surface の例でも常に 100% 正しく機種を回答したわけではありません。OpenAI 社が発表している GPT-4V モデルの Limitations から一部引用すると、

Non-English: The model may not perform optimally when handling images with text of non-Latin alphabets, such as Japanese or Korean.

日本語や韓国語などのテキストが含まれる場合、モデルは最適なパフォーマンスにならない可能性があるとのことです。Microsoft からは Azure AI Vision による Enhancement の機能が出ています。Azure OpenAI の GPT-4 Turbo with Vision で日本語テキストの読み取り機能をより強化するには画像で Vision 拡張機能を使用するのドキュメントに載っている手順で行いましょう。