こんにちは。
話題のGeminiを軽ーく触ってみました。
下記で、簡単に画像の解析ができました。
from langchain_core.messages import HumanMessage
from langchain_google_genai import ChatGoogleGenerativeAI
image_url = "イメージへのURL"
# Geminiを初期化
llm = ChatGoogleGenerativeAI(model="gemini-pro-vision")
# Geminiに送る文章の作成
message = HumanMessage(
content=[
{
"type": "text",
"text": "この画像は何ですか?",
},
{"type": "image_url", "image_url": image_url},
]
)
# 結果を表示
print(llm.invoke([message]).content)
私のQiitaのトプ画を送ると下記が返ってきた。
これは、一人の男性がビーチで撮った写真です。彼は白いシャツを着て、赤いバッグを腰に巻いています。彼はサングラスをかけていて、とても幸せそうです。後ろにはヤシの木が生えています。
「とても幸せそう」らしいです。笑
こういう感情も含めて画像から抽出できるのは本当にすごい。
番外編
同じ画像に対して、下記を聞くと・・・・
message = HumanMessage(
content=[
{
"type": "text",
"text": "この画像はどこかわかりますか?頑張って推測して下さい。",
},
{"type": "image_url", "image_url": image_url},
]
)
これはシンガポールのセントーサ島の写真です。
と返ってきて、まじびびった・・・・そしてちょっと怖い。