10

@smats-rd(S Mats)in

株式会社アネステック

GPT-4o のマルチモーダル機能をさっそく試す

Last updated at 2024-05-21Posted at 2024-05-16

1. この記事の内容

OpanAI から 2024.5.15 に新しい大規模言語モデル「GPT-4o」が出たので、以前書いた「GPT-4V に入門してみる」記事と同様の検証をもう一回 GPT-4o でやってみて比較する記事となります
結論から言うと「GPT-4oが圧倒的に強い」です。（わかり切った話ですみません）

2. GPT-4o とは？

　すでに大量のニュース記事が出ていますので細かく紹介しませんが、以下の公式サイトを貼っておきます。

2-1. 料金

こちらのページを参照されたし

2-2. どのくらいの時点までの知識があるのか？

　勿論上にある通りオフィシャルには2023年10月までなのですが、実際どのくらい最近のことまで答えられるのか聞いてみました。

最近の情報まで含めてめちゃくちゃ正確な回答です。いつの間にかWeb検索した情報を踏まえて回答するようになっていました。ハルシオン防止のため言語モデルだけでなく検索情報も使って回答を補強しているようです。つまり内部的に検索結果をコンテキストに入れたRAGのようなことをしていそうですね。

3. 以前書いたGPT-4Vの記事との比較

では、マルチモーダルについても見てみたいと思います。
以前自分が書いた記事ですが、こちらになります。

このときに使った現場猫の画像を使って、もう一度聞いてみました。

完璧な回答が返ってきました。前回この絵を使った理由は、この画像の主題が、「トリプルチェックをしてミスを無くそうとしているのに各担当者が他の担当者を当てにして無責任になり、逆にチェックの精度が下がってしまう」というシニカルな状態を表現したものだからです。皮肉を理解するというのはかなり高度な読解力が必要でAIにはなかなか難しいはずです（人間ですら皮肉を正しく理解できないことが時々あります）。
ここで前回の記事をみていただきたいのですが、GPT-4Vはこの絵を見て「ヘルメット」や「猫」や「笑顔」などのディティールは認識できるものの、全体としてこの絵が表している主題はまったく理解できませんでした（ヒントを与えたらやっと理解した）。またOCRとしての性能もダメダメで文字を読み間違えていました。今回は文字も完璧に認識した上に、絵全体としての主題も理解しているように見えます。

もう少し質問して確認してみましょう。

どうやら完全に理解しているようです。

4. 絵画の認識

　次に、前回使ったフランク・ブラムリーの絵を見せてみましょう。

確認してみると、リチャード・エドワード・ミラーは19世紀のアメリカの印象派画家だそうです。

確かに時代も近いし、画風も似てなくもないですが残念ながらハズレです。ちなみに "The White Dress" という作品は見つけられませんでした（この絵はタイトル不明）。ちょっとヒントを出してみます。

カタカナ名がスペルと違うのですが… Edward Dufner で探してみると"Woman Reading"という作品がありました。

こちらも画風が似ているでしょうか？しかしイギリスの画家だと伝えたのにアメリカの画家を回答してきました。エドワード・デュガンという画家は見つけられませんでした。その後、何回か質問してみたのですが、残念ながらフランク・ブラムリーは出て来ませんでした。

5. ではもう少し有名な作品ならいけるのか？

　使った絵が少々マイナー過ぎたようなので、有名な作品だと答えられるのかやってみました。

やはり有名作品であればわかるようです（製作年も正しい）。まぁ人間だってそうですしね…マイナーな画家でも画風と年代が近い候補を挙げてくるのは大したものだとも言えます。

6. Image to Image に挑戦

　前回GPT-4Vを試した時点では Image to Image 機能は未サポートでしたが、今回は問題ないはずです。さっそくやってみましょう。知識の検索というのは生成AIにしてみれば余技みたいなものなので、むしろこちらの方が得意な分野であるはずです。

まずはアニメ風

ばっちりですね。

水彩風にしてもらう

この絵は縮小しているのでディティールが見づらいのですが、拡大すると水彩っぽさがにじみ出ています（水彩だけに）

浮世絵風

浮世絵にしては写実的な感じで、ペン画みたいですが、きちんと和装にするのが偉いと思います。本に書かれた文が横書きのようなので南蛮渡来の書物を読んでいるのか。

葛飾北斎風

とりあえず波がドーンと。水の呼吸

水墨画風

無駄にうまい。背景のなんちゃって漢文が良い味わいを出しています。

アメコミ風

ほぼリキテンシュタイン。指がつらい。よく見ると左腕がどうなっているのかわからない。

銅版画

アール・ヌーボー味がある

ミュシャ風

ならばミュシャもいけるかな、と思ったのですが…

大人の事情により断られました。無念…しかし「アール・ヌーボーで」とお願いしてみたらだいたいミュシャでした。

クリムト風

ミュシャはダメだけどクリムトはOKなんだ…基準がよくわからない。

ウィリアム・モリス風

ダメもとでやってみたらいけた。

日本の漫画っぽく

山岸涼子みたいなのがきた。頭の後ろの白い円形は帽子か、後光か

もう少し少年漫画っぽくできない？

毛髪を逆立てて集中線入れたら少年漫画なのか

デ〇ズニー風

きわきわでOKそうなところでしょうか。ご査収下さい

7. 音声処理は？

　ご存知のようにGPT-4o の一番のセールスポイントは音声認識などの音声処理にあるのですが、今回はGPT-4V 検証との比較に重点をおいたため、また別の機会とさせていただきます。

8. まとめ

　ということで所感ですが、なんかもう凄いというしかありません（語彙）。

前半の現場猫完全解釈もすごかったのですが、後半の画像変換はいくらでも遊べてしまって収拾がつかない。全体的にクオリティが予想よりはるかに高くてびっくりしました。漫画やイラストを手で描く時代はもうすぐ終わりそうですね…。

　それにしても、5/14（火）に発表されたモデルを試した記事を 5/16(木) に投稿した時点で、すでに遅きに失した感があるのはどうしたわけか…この分野のスピード感の恐ろしさを感じます。

今回は以上となります。
ここまでお読みいただきありがとうございました。

10

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

10