はじめに
GPT-4Vは、テキストだけでなく画像も理解できる革新的なAIモデルです。
ここでは、初心者でも理解しやすいように、GPT-4Vを使って画像解析を行う方法を紹介します。
必要なもの
- OpenAIのAPIキー: GPT-4を使用するためには、OpenAIのAPIキーが必要です。
- Python: このコードはPythonで書かれています。
コードの説明
GPT-4Vを使って画像に関する質問に答えるためのPythonコードは以下の通りです。
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-4-vision-preview",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "What’s in this image?"},
{
"type": "image_url",
"image_url": {
"url": "画像のURL",
},
},
],
}
],
max_tokens=300,
)
print(response.choices[0])
処理詳細
-
ライブラリのインポート:
from openai import OpenAI
でOpenAIライブラリをインポートします。 -
クライアントの設定:
client = OpenAI()
でOpenAIのクライアントを設定します。 -
リクエストの作成:
chat.completions.create
メソッドを使って、質問と画像URLを含むリクエストを作成します。 -
画像URLの指定:
"url": "画像のURL"
の部分に、解析したい画像のURLを指定します。 -
応答の出力:
print(response.choices[0])
でモデルからの応答を出力します。