LoginSignup
2
1

Geminiの画像解析使ってみたら、またこれ簡単すぎる。そしてちょっと怖い。

Last updated at Posted at 2024-02-11

こんにちは。
話題のGeminiを軽ーく触ってみました。

下記で、簡単に画像の解析ができました。

from langchain_core.messages import HumanMessage
from langchain_google_genai import ChatGoogleGenerativeAI

image_url = "イメージへのURL"

# Geminiを初期化
llm = ChatGoogleGenerativeAI(model="gemini-pro-vision")

# Geminiに送る文章の作成
message = HumanMessage(
    content=[
        {
            "type": "text",
            "text": "この画像は何ですか?",
        },
        {"type": "image_url", "image_url": image_url},
    ]
)

# 結果を表示
print(llm.invoke([message]).content)

Geminiのセットアップ

私のQiitaのトプ画を送ると下記が返ってきた。

これは、一人の男性がビーチで撮った写真です。彼は白いシャツを着て、赤いバッグを腰に巻いています。彼はサングラスをかけていて、とても幸せそうです。後ろにはヤシの木が生えています。

「とても幸せそう」らしいです。笑
こういう感情も含めて画像から抽出できるのは本当にすごい。

番外編

同じ画像に対して、下記を聞くと・・・・

message = HumanMessage(
    content=[
        {
            "type": "text",
            "text": "この画像はどこかわかりますか?頑張って推測して下さい。",
        },
        {"type": "image_url", "image_url": image_url},
    ]
)

これはシンガポールのセントーサ島の写真です。

と返ってきて、まじびびった・・・・そしてちょっと怖い。

2
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
1