LoginSignup
2
1

GPT4oの画像認識精度をGPT4TurboやGemini Pro 1.5と比べてみる

Last updated at Posted at 2024-05-14

背景

先に結論

  • GTP4oの日本語認識能力が格段に向上し、Geminiに引けを取らなくなりました
  • また、GPT4VやGPT4TurboはGeminiに比べ簡素な出力となりがちだったのですが、GPT4oは構造化されたてわかりやすい文章を生成するようになりました
  • GPT4oはスピードも早くなりGeminiに引けを取らなくなっています

方法

  • ChatGPTでGPT4oを選択し、対象画像を与えて以下のプロンプトを与えて出力を取得しました

プロンプト

これまで同様以下のプロンプトを使います

この画像がどういうものかできるだけ詳しく教えてください。この画像を見たことがない人に対して、この画像のメッセージが伝わるように説明をしてください。文字としては何が記述してあって、どれが重要か。物体は何が写っていて何が重要か。この画像は何で、誰に何を伝えるためのものか。わかりやすく説明してください。

1つ目

1.png

GPT4o

この画像は、CANVA AirDotsというワイヤレスイヤホンの広告です。以下に、画像の詳細を説明します。

画像の構成と内容

ヘッダー

「CANVA AirDots ワイヤレスイヤホン」
これは、商品の名称であり、製品がワイヤレスイヤホンであることを示しています。

センター

「Bluetooth5.0自動接続をサポート」

これは、製品がBluetooth 5.0技術をサポートしており、自動接続機能があることを強調しています。この部分は赤い背景に白い文字で書かれており、重要な機能を目立たせるために強調されています。
AI音声アシスタント

この部分には、AI音声アシスタントが搭載されており、スマートフォンを探したり、メッセージを送信したり、写真を撮ることができると記述されています。また、イヤホンのマルチタッチ機能により音声アシスタントを起動できるとも書かれています。

ボトム

「急速接続」
これは、イヤホンが自動で素早く接続されることを示しています。「待たずに、耳に装着すれば使えます」という説明もあり、ユーザーにとっての使いやすさをアピールしています。

画像に写っている物体

ワイヤレスイヤホンと充電ケース
画像には、CANVA AirDotsのワイヤレスイヤホン本体と充電ケースが写っています。イヤホンは白色で、典型的なエアポッズの形状をしています。充電ケースも白色で、イヤホンが収納できるようになっています。

重要な要素

商品名と製品の種類(CANVA AirDots ワイヤレスイヤホン)
Bluetooth5.0自動接続のサポート(赤い背景に白文字で強調)
AI音声アシスタント機能(多機能をアピール)
急速接続の利便性(素早く使えることを強調)

メッセージの伝達

この画像は、CANVA AirDotsワイヤレスイヤホンの主要な特徴と利便性を消費者に伝えるためのものです。特にBluetooth 5.0自動接続、AI音声アシスタント機能、急速接続などの先進的な機能を強調しており、簡単に使える高機能なイヤホンを探しているユーザーをターゲットにしています。

この広告は、視覚的に商品とその特徴を強調することで、ユーザーに対して製品の魅力を効果的に伝えようとしています。

GPT4Vの回答

Gemini Ultra 1.0の回答

GPT4Turboの回答

Gemini Pro 1.5の回答

評価: 文字認識はGemini Pro 1.5の方が若干いいが、出力構成がGPT4oがわかりやすく同率1位

  • GPT4oでも小さい文字の日本語をほぼ認識できるようになりました
  • GPT4oはヘッダー・センター・ボトムと分割して説明し、わかりやすい出力でした
  • Gemini Pro 1.5に比べると微妙な認識もれ?出力漏れ?("ナビを開き"のみ)がありました
  • ハルシネーションはありませんでした
  • GPT4oは認識漏れがありましたが、出力形式がわかりやすかったので同率1位としました
  • GPT4o ≒ Gemini Pro 1.5 > Gemini Ultra 1.0 >>> GPT4Turbo > GPT4V という順序になります

2つ目

2.png

GPT4o

この画像は、CANVA AirDotsというワイヤレスイヤホンの追加広告です。以下に、画像の詳細を説明します。

画像の構成と内容

ヘッダー

「Bluetooth5.0」
これは、製品がBluetooth 5.0技術をサポートしていることを示しています。この部分は黒い背景に白文字で強調されています。
説明文:「次世代Bluetooth技術。さらに速く安定した接続。データ転送速度が前世代よりも2倍向上。音楽やゲームがさらに滑らかに。」
Bluetooth 5.0の利点を強調しています。接続の速さと安定性、データ転送速度の向上が述べられており、音楽やゲームの体験が向上することをアピールしています。

センター

「4.5gの軽さ」
製品が非常に軽量であることを強調しています。
説明文:「掛け心地がよく、耳に負担がありません。外れる心配もいりません。密閉性と丈夫さの要件を満たし、ジョギング、ボクシング、旅行先で音楽を聴くときも、しっかりと装着できます。」
軽量であるため耳に負担が少なく、スポーツや旅行中にも安定して使用できることを説明しています。

ボトム

「12h連続再生」
製品のバッテリー寿命について述べています。
説明文:「充電ボックスの使用で12時間連続再生することができます」
充電ケースを使用することで、長時間使用できることを強調しています。

画像に写っている物体

ワイヤレスイヤホンと充電ケース
画像には、CANVA AirDotsのワイヤレスイヤホン本体と充電ケースが写っています。イヤホンは白色で、典型的なエアポッズの形状をしています。充電ケースも白色で、イヤホンが収納できるようになっています。

重要な要素

Bluetooth 5.0のサポート(次世代技術の強調)
4.5gの軽さ(軽量で耳に負担が少ない)
12時間の連続再生(長時間のバッテリー寿命)
メッセージの伝達
この画像は、CANVA AirDotsワイヤレスイヤホンの主要な特徴と利便性を消費者に伝えるためのものです。特にBluetooth 5.0の先進的な技術、イヤホンの軽量性、長時間のバッテリー寿命を強調しています。ユーザーに対して、技術的に優れた、快適で長時間使用できるイヤホンを提供することをアピールしています。

この広告は、視覚的に商品とその特徴を強調することで、ユーザーに対して製品の魅力を効果的に伝えようとしています。

GPT4Vの回答

Gemini Ultra 1.0の回答

GPT4Turboの回答

Gemini Pro 1.5の回答

評価: GPT4oとGemini Ultra 1.0 同率1位

  • GPT4oで小さい文字の日本語が完全にできていいて、ハルシネーションはありませんでした
  • Gemini Ultra 1.0 も同様に小さい文字の日本語が完全にできていいて、ハルシネーションがなかったので同率1位としました
  • GPT4o ≒ Gemini Ultra 1.0 > GPT4Turbo = Gemini Pro 1.5 >> GPT4V という順序になります

3つ目

3.png

GPT4o

この画像は、ある企業の特徴をまとめたインフォグラフィックです。以下に、画像の詳細を説明します。

画像の構成と内容
タイトルとアイコン
「会社の特徴」
画像の上部にあるタイトルで、企業の概要や特徴を紹介することを示しています。
タイトルの上には、文書アイコンが配置されており、情報を示すビジュアル要素として使われています。
各情報の詳細
社員の男女比

男性80%、女性20%
円グラフで男女比を視覚的に示しています。円グラフの大部分が濃い青色で男性、残りの部分が薄い青色で女性を示しています。
社員人数

50人
この企業の社員数が50人であることを示しています。
平均年齢

28歳
社員の平均年齢が28歳であることを示しています。
利益率

20%
この企業の利益率が20%であることを示しています。
パートナー

50社
この企業が50社のパートナーと提携していることを示しています。
売り上げの成長率

2028年から2030年にかけての売上成長率を示すグラフが描かれています。グラフは年々売上が増加していることを示しています。
地域貢献率

No.1
地域への貢献度が高いことを示しています。この部分には月桂冠のアイコンがあり、貢献度の高さを強調しています。
福利厚生

各種保険
育児・介護支援
通勤交通費の補助
教育・研修制度
など、福利厚生が充実していることを示しています。
重要な要素
社員構成(男女比、人数、平均年齢)
企業の財務状況(利益率、売上成長率)
パートナーシップ
地域貢献
福利厚生の充実
画像に写っている物体
円グラフ、棒グラフ、アイコン
各種データを視覚的に示すために使用されている円グラフ、棒グラフ、アイコンなどが含まれています。
メッセージの伝達
この画像は、企業の特徴や強みを簡潔かつ視覚的に伝えるためのものです。特に社員の構成や企業の成長性、福利厚生の充実度を強調しています。このインフォグラフィックは、企業の現状や将来性、社員への配慮をアピールすることで、就職希望者や投資家、パートナー企業などに対して、企業の魅力を効果的に伝えるために作成されています。

評価: 引き分け

  • こちらはGPT4oも全て正しく認識できていました
  • どのモデルも全ての情報を正しく認識できていました
  • こちらも Gemini Ultra 1.0 と GPT4oの出力結果の文章が豊富でわかりやすかったです

今後

  • この3枚の画像では完全にGPTでもGeminiでも完全に認識できるようになりました
  • 次からはもう少し込み入った画像で検証をしていかないといけないなと思っています
2
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
1