More than 1 year has passed since last update.

Geminiの画像解析使ってみたら、またこれ簡単すぎる。そしてちょっと怖い。

Gemini

Last updated at 2024-02-11Posted at 2024-02-11

こんにちは。
話題のGeminiを軽ーく触ってみました。

下記で、簡単に画像の解析ができました。

from langchain_core.messages import HumanMessage
from langchain_google_genai import ChatGoogleGenerativeAI

image_url = "イメージへのURL"

# Geminiを初期化
llm = ChatGoogleGenerativeAI(model="gemini-pro-vision")

# Geminiに送る文章の作成
message = HumanMessage(
    content=[
        {
            "type": "text",
            "text": "この画像は何ですか？",
        },
        {"type": "image_url", "image_url": image_url},
    ]
)

# 結果を表示
print(llm.invoke([message]).content)

Geminiのセットアップ

私のQiitaのトプ画を送ると下記が返ってきた。

これは、一人の男性がビーチで撮った写真です。彼は白いシャツを着て、赤いバッグを腰に巻いています。彼はサングラスをかけていて、とても幸せそうです。後ろにはヤシの木が生えています。

「とても幸せそう」らしいです。笑
こういう感情も含めて画像から抽出できるのは本当にすごい。

番外編

同じ画像に対して、下記を聞くと・・・・

message = HumanMessage(
    content=[
        {
            "type": "text",
            "text": "この画像はどこかわかりますか？頑張って推測して下さい。",
        },
        {"type": "image_url", "image_url": image_url},
    ]
)

これはシンガポールのセントーサ島の写真です。

と返ってきて、まじびびった・・・・そしてちょっと怖い。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up