More than 1 year has passed since last update.

【UPDATE】GPT-4V に入門してみる+α

Last updated at 2024-04-21Posted at 2023-11-09

※追記：本記事執筆後に ChatGPTは Image-to-Image に対応してしまったので本記事の内容はあまり意味がなくなってしまいましたが、こんな時期もあったという記録として残しておきます。ご了承下さい。

1. 今回の記事内容

ChatGPT4がマルチモーダルに対応し、画像を認識できるようになりました。またOpenAIの画像生成AIであるDALL･E3 とも連動するようになりました。と言うニュースがもう結構前(2023年10月)に流れていたように思いますが、実際にどういうものなのか触ってみたという人はまだ意外と少ないようなので、ちょっと触ってみましたというのが今回の記事になります。
LangChain や LlamaIndex といったLLMプログラミング寄りの話はまた別途稿を改めてさせていただきたいと思います。

※2023.11.9 追記

OpenAI から新たな発表が行われ、画像の認識や生成（さらに音声処理など）についてもAPIが公開され、使えるようになりましたのでそれらについての関連情報も付記します。本記事の最後でAPI呼出しもやってみました。

2.さっそくGPT-4V を使ってみる

　実はGPT-4V使うのはとても簡単です。画像をアップロードしてチャットすればいいだけです。

(1) 画像内の日本語は読めるのか

　日本語の文字が含まれている画像を見せてみました。

この回答を見ると以下のことがわかります。

描かれている絵がヘルメットをかぶった猫であることを認識している
笑顔であることを認識している。全体的に元気があると認識している
画像内の日本語は読めないらしい
ただし画像内の数字だけは認識できているらしい
この絵が表している全体的な主題は理解できていない（これはセリフが読めなければ難しいでしょう）

本当に日本語が読めないのか？についてもう少し突っ込んで聞いてみました。

「だろうから」を「ぎゅうぎゅう」、「ヨシ！」を「ラミー！」などと読み間違えていますが、ある程度は読めている模様です。
もう少し追加の情報を与えてみます。

なかなかいい線行っているように見えます。

(2) アートを見せてみる

"Sorry, I cannot help that." はChatGPTの決まり文句で、著作権的にまずい内容を生成させようとしたり、版権のあるキャラクターの絵を見せたりするとよくこの答えが返ってくるようです。ChatGPTが誰の作品かわかっていても敢えてこの回答を返している可能性があります。様式を訪ねてみると印象派であると認識したようです。

実はこの絵は最初ルノワールかと思ったのですが、よく調べてみるとフランク・ブラムリーという後期印象派の画家による"Delicious Solitude" という作品のようです。

ChatGPTもルノワールに似ているという認識をしているようです。人間の私もそう思ったくらいなので、なかなかの認識能力ではないかと思います。

3. DALL･E3 との連動を試してみる

　このチャットの流れで、画像生成AIである DALL･E3 とChatGPTとの連動を試してみたいと思います。

(1) いきなり無茶ぶり

チャットの途中からいきなりDALL･E3を使うことはできないようです。

よく調べると、DALL･E3を使う場合は、通常のチャットとは別の扱いで、チャット開始時にDALL･E3を使うことを指定しておかないといけないようです。

　　　↑こんな感じで指定する必要がある。

(2) それならプロンプトでお願い

　直接 image to image で変換するのはさすがに無理なようなので、生成用のプロンプトを作れるかお願いしてみます。

　ここでChatGPTは元絵をルノワールの絵だと思ってしまっていますが、そこは本質ではないのでここでは無視します（というか、プロンプトで参照するならむしろ有名な画家の方が効果的なはずですね）。

このプロンプトを使って依頼してみます。

　どちらかと言えば右の方が元絵に近い感じですが、ずいぶん都会的な雰囲気の絵になってしまいました。

(3) ChatGPT自身に評価してもらう

　この生成された絵をChatGPTに見せてみます。

２つの絵の違いを認識しているようです。

(3) 修正したプロンプトで再生成してみる

　ChatGPT自身が直したプロンプトでもう一度生成を掛けてみます。（ただし Using the provided painting の下りは、絵を提供しているわけではなく意味が通じなくなるので修正しました）

今度は少し元絵に近づいたようです。
この回答にある通り、生成された絵はダウンロードすることができます。画像のピクセルサイズは 1024 x 1024で、結構な解像度です。

(3) もう一度評価→再生成してみる

いきなりプロンプトが css スタイルになりましたが、こういう内容です。

"Create an anime-style illustration inspired by Auguste Renoir's painting. Feature a young woman sitting in a calm forest clearing, reading a book. She should be positioned closer to the foreground, surrounded by lush greenery and blooming flowers, similar to Renoir's composition. Her attire should be a long, flowing white dress reminiscent of the late 19th century. Minimize additional details and accessories, focusing on the serene atmosphere of the scene. The color palette should capture the soft pastel shades of Renoir's original painting."

このプロンプトで再度画像生成してみると、こうなりました。

違うそうじゃない感が…むしろさっきの絵よりも遠ざかったまである。
もう一度再生成ボタンを押してみましょう。

右側に黒人さんをフィーチャーしてくるのはポリティカリーコレクトな面で配慮が働いていると思われます。できあがったものの感想をChatGPTさんに聞いてみましょう。

まさしく文字通り自画自賛しています。

4.【※2023.11.9 追記】DALL･E3 をAPIから呼べるようになったので早速やってみる

間の悪いことにこの記事を書いた直後にOpenAIから大幅な機能アップデートの発表が行われ、画像認識や画像生成も含んだAPIも公開されました。下記のように、使用例を載せた記事もいくつか出て来ました。

さっそく今回のプロンプトを使ってAPIを呼んでみたいと思います。

dalle3.py

#
# 前提条件
# ・最新版の openai モジュールをインストールする必要があります。
# ・環境変数 OPEN_API_KEY にAPIキーを設定しておく必要があります。
#
# 注意点：
# あまり頻繁に呼ぶと下記のようなリミットエラーになります。
# openai.RateLimitError: Error code: 429 -
# {'error': {'code': 'rate_limit_exceeded', 'message': 'Rate limit exceeded for images per minute in organization org-xxxxx.
# Limit: 1/1min. Current: 2/1min. Please visit https://help.openai.com/en/articles/6696591 to learn how to increase your rate limit.
# ', 'param': None, 'type': 'requests'}}
#

from openai import OpenAI

client = OpenAI()

# 今回作って貰ったプロンプト
p: str = (
    "Create an anime-style illustration inspired by Auguste Renoir's painting. "
    "Feature a young woman sitting in a calm forest clearing, reading a book."
    "She should be positioned closer to the foreground, surrounded by lush greenery and blooming flowers, "
    "Her attire should be a white dress reminiscent of the late 19th century. "
    "Minimize additional details and accessories, focusing on the serene atmosphere of the scene. "
    "The color palette should capture the soft pastel shades of Renoir's original painting."
)
response = client.images.generate(
    model="dall-e-3",
    prompt=p,
    size="1024x1024",
    quality="standard",
    n=1,
)

image_url = response.data[0].url

# 画像のURLが返ってくる
print(image_url)