LoginSignup
0
0

GPT4TurboとGemini Pro 1.5の画像認識の精度も比較してみる

Posted at

背景

先に結論

  • 日本語の認識能力においてはやはりGemini系の方が精度高かったです
  • Gemini Ultra 1.0 と Gemini Pro 1.5ではそこまで大きな差はないように思いました
  • GPT4TurboはGPT4Vより少し良くなっているかなという感覚でした
    • 日本語認識能力が少し上がり、細かい画像を認識し、詳細に文章を生成してくれるイメージ
  • Gemini Ultra 1.0 = Gemini Pro 1.5 >> GPT4Turbo > GPT4V という印象でした

方法

  • GPT4TurboはPythonのAPI経由で確認しました.

  • GeminiはGCPのVertexAIStudio経由で確認しました

使うプロンプト

前回同様以下のプロンプトを使います

この画像がどういうものかできるだけ詳しく教えてください。この画像を見たことがない人に対して、この画像のメッセージが伝わるように説明をしてください。文字としては何が記述してあって、どれが重要か。物体は何が写っていて何が重要か。この画像は何で、誰に何を伝えるためのものか。わかりやすく説明してください。

1つ目

1.png

GPT4Turbo

この画像は、ワイヤレスイヤホン「CANVA AirDots」の広告です。全体的にシンプルでモダンなデザインが特徴的で、製品の洗練されたイメージを強調しています。\n\n画像の上部には、製品名「CANVA AirDots」のロゴが大きく配置されており、その下に「ワイヤレスイヤホン」と小さく追記されています。これにより、視覚的に製品の種類を明確に伝えています。\n\n中央から下にかけて、製品の特徴や利点についての説明が書かれています。「Bluetooth 5.0の高速接続をサポート」というキャッチコピーが赤いボタンで目立つようにされており、これが技術的な主要な特性であることを示しています。その下には、さらなる製品の特長が列挙されており、「AI音声アシスタントでスマホを便利に」と「耐久性が高く、軽量でコンパクトな設計です。」と記載されています。これにより、製品の実用性と持ち運びやすさが強調されています。\n\n画像には、イヤホン本体とその充電ケースが写っており、クローズアップされた写真からは製品の形状とデザインの詳細を確認することができます。イヤホンは白色でスタイリッシュな外観が特徴です。\n\nこの広告は、製品の技術的な特長とデザインの魅力を前面に出し、潜在的な購買者に向けて情報を提供し、興味を喚起するためのものです。また、広告の清潔感とシンプルさは、製品の高品質と現代的なイメージを支持しています。

Gemini Pro 1.5

CANVA AirDots ワイヤレスイヤホン の広告画像解説 この画像は、CANVA AirDots というワイヤレスイヤホンの広告です。黒い背景にイヤホン本体と充電ケースが浮かんでおり、シンプルかつ洗練されたデザインが強調されています。

テキスト情報と重要ポイント
CANVA AirDots ワイヤレスイヤホン: これが商品の名前です。大きく表示されているので、最も重要な情報です。
Bluetooth5.0自動接続をサポート: このイヤホンはBluetooth5.0に対応しており、自動的にデバイスと接続されることを示しています。
AI音声アシスタント: AI音声アシスタントに対応しており、スマホを探したり、ナビを開いたり、メッセージを送ったり、写真を撮ったりすることができます。
急速接続: 自動接続機能により、ケースから取り出すだけで使えることを強調しています。
画像情報と重要ポイント
白いイヤホンと充電ケース: シンプルで清潔感のあるデザインが特徴です。
浮かんでいる様子: ワイヤレスであること、軽快さを表現しています。
広告の目的とターゲット
この広告は、CANVA AirDots ワイヤレスイヤホンに興味を持つ人々に向けて、その特徴と利便性をアピールすることを目的としています。シンプルで使いやすいワイヤレスイヤホンを求めている人、AI音声アシスタント機能に興味がある人などがターゲットと考えられます。

まとめ
この広告は、CANVA AirDots ワイヤレスイヤホンの特徴を簡潔に、かつ視覚的に訴求することに成功しています。デザイン性と機能性を兼ね備えたワイヤレスイヤホンを探している人にとって、魅力的な選択肢となり得るでしょう。

GPT4Vの回答

Gemini Ultra 1.0の回答

評価: Gemini Pro 1.5がいい

  • Geminiどちらもは細かい日本語文字まで読めているところがいいところです
  • Gemini Ultra 1.0 はハルシネーションを含んでいたため今回はGemini Pro 1.5の方が評価を高くしました
  • GPT4VとGPT4Turboは小さい日本語表記の記載がなかったためGeminiに劣ります
  • GPT4Vはハルシネーションが発生していたのでその点はGPT4Turboの方が高く評価できます
  • Gemini Pro 1.5 > Gemini Ultra 1.0 >>> GPT4Turbo > GPT4V という順序になります

2つ目

2.png

GPT4Turbo

この画像はワイヤレスイヤホンとその充電ケースを宣伝するための広告です。画像の主要部分は、商品である白色のワイヤレスイヤホンとそれを収納・充電するための小型の白色ケースです。広告はシンプルで洗練されたデザインをしており、白と黒の背景にテキストが配されています。\n\nテキストは以下の通りです。\n- 上部に大きく「Bluetooth 5.0」とあり、これがイヤホンの技術基準を示しています。さらに、これにより「最速でBluetooth接続が可能になった点」「データ転送速度が向上した点」が強調されています。\n- 真ん中には「4.5gの軽さ」と記載されており、イヤホン一つあたりの重さを示しています。その下に「身につけながら・耳に感じることなく、外れる心配もありません。携帯性と快適さを極めた軽量デザイン・ジャストフィット・シンプルな形状で最高度な使い心地。」とあり、快適さと使い心地の良さが強調されています。\n- 下部には「12h連続再生」と大きく記載されており、充電ケースの使用によって「最大12時間連続再生」が可能であることが紹介されています。\n\n全体的に、この広告はBluetooth 5.0技術、軽量設計、および長時間のバッテリー持続性を強調しています。これは、技術的な進歩および使用者の快適性と便利さを訴えることを目的としています。製品の機能性とデザインの優位性をアピールしているのが伝わります。

Gemini Pro 1.5

この画像は、ワイヤレスイヤホンの製品紹介を目的とした広告バナーです。白を基調としたシンプルなデザインで、イヤホン本体と充電ケースがそれぞれ3回登場します。

画像に含まれる要素と重要ポイント:

Bluetooth 5.0: 画像上部に大きく書かれたテキストで、このイヤホンの特徴である最新のBluetooth技術をアピールしています。高速で安定した接続や、データ転送速度の向上により、音楽やゲームがスムーズに楽しめることを強調しています。
4.5gの軽さ: イヤホンの軽量さを強調するテキストです。装着時の快適さと、運動時にも外れにくいことを伝えています。
12h連続再生: イヤホンのバッテリー駆動時間の長さを示すテキストです。充電ケースと併用することで、長時間使用が可能であることをアピールしています。
イヤホン本体と充電ケースの画像: シンプルなデザインの白いイヤホンと充電ケースが3回登場します。清潔感と洗練されたイメージを演出しています。
画像の目的とターゲット:

この画像は、ワイヤレスイヤホンの購入を検討しているユーザーに向けた広告です。最新のBluetooth技術や軽量さ、長時間再生といった特徴を強調することで、製品の魅力を訴求しています。特に、音楽やゲームを頻繁に楽しむ方や、運動時にイヤホンを使用する方にとって魅力的な選択肢となるでしょう。

まとめ:

この画像は、ワイヤレスイヤホンの魅力をシンプルかつ効果的に伝える広告バナーです。製品の特徴を簡潔にまとめ、視覚的に訴求することで、ユーザーの購買意欲を刺激することを目的としています。

GPT4Vの回答

Gemini Ultra 1.0の回答

評価: Gemini Ultra 1.0がいい

  • GPT4TurboもGemini Pro 1.5のどちらも細かい日本語表記を認識できていませんでした
  • GPT4TurboもGemini Pro 1.5もGPT4Vよりは画像の詳細を認識できていました
  • Gemini Ultra 1.0 が最も文字認識も正しく行い、情報量も多かったです
  • どれもハルシネーションはありませんでした
  • Gemini Ultra 1.0 > GPT4Turbo = Gemini Pro 1.5 >> GPT4V という順序になります

3つ目

3.png

GPT4Turbo

この画像は、ある企業や機関の成果や目標を図表やデータを通して紹介するインフォグラフィックです。画像の背景色は統一された青色で、白色の文字とグラフが使用されています。全体的なデザインは非常にシンプルで読みやすい構成になっています。\n\n画像の内容は以下の通りです:\n\n1. **全社の特徴**(画像の上部にタイトルとして記載):\n - 表示されているタイトルから、画像全体がある企業全体の特徴を説明していると推察できます。\n\n2. **社員の男女比**:\n - 円グラフで表示されており、男性が80%、女性が20%であることが分かります。\n\n3. **社員人数**: \n - 50人と記載されています。\n\n4. **平均年齢**: \n - 28歳と記載されています。\n\n5. **新規率**: \n - 社員の新規率が20%であることが分かります。\n\n6. **パートナー数**:\n - 50社と記載されています。\n\n7. **売り上げの成長率**(棒グラフで表示):\n - 2028年、2029年、2030年と年を追うごとに売上が増加していることが示されています。\n\n8. **地域貢献賞**:\n - 何らかの賞を受賞していることが示されているロゴ(第1位のローレル)。これは企業が社会に対して貢献していることを認められた証です。\n\n9. **福利厚生**:\n - 福利厚生の種類がいくつか挙げられており、安全保障、育児・介護支援、通勤交通費の補助、教育・研修制度などが提供されています。\n\n画像の下部には"2030年時点のデータ"との注記があります、これにより提示されているデータや情報が2030年時点のもの、あるいは予測データであることが示されています。\n\nこのインフォグラフィックは、おそらく社内報や企業のウェブサイト、投資家向けの資料として使用されることを意図しており、企業の成長性、安定性、社会貢献度をアピールする目的で作成されたと考えられます。

Gemini Pro 1.5

会社紹介のインフォグラフィック この画像は、ある会社の概要や特徴を視覚的にわかりやすくまとめたインフォグラフィックです。求職者や取引先など、その会社に興味を持つ人に向けて情報を提供することを目的としています。

内容
画像には、以下の情報が分かりやすく配置されています。

会社の特徴 : 画像上部に大きく書かれており、この画像のメインテーマであることが分かります。
社員の男女比: 男性80%、女性20% であることが円グラフで示されています。
社員人数 : 50人と記載されており、会社の規模感が分かります。
平均年齢: 28歳と記載されており、比較的若い社員が多い会社であることが分かります。
利益率: 20%と記載されており、会社の収益性が高いことが分かります。
売り上げの成長率: 2028年から2030年にかけて右肩上がりの棒グラフで示されており、会社の成長性が期待できることが分かります。
パートナー: 50社と記載されており、多くの企業と協力関係にあることが分かります。
地域貢献率: No.1 と記載されており、地域社会に貢献していることが分かります。
福利厚生: 各種保険、育児・介護支援、通勤交通費の補助、教育・研修制度など、充実した福利厚生が箇条書きで示されています。
データ: 2030年時点のデータであることが記載されており、将来の展望を示しています。
特徴
シンプルで分かりやすいデザイン: 青を基調としたシンプルなデザインで、情報が整理されており、見やすいです。
視覚的な表現: 円グラフや棒グラフなどの視覚的な表現を用いて、情報を直感的に理解しやすくしています。
重要な情報が一目で分かる: 社員数、平均年齢、利益率、成長率など、会社を知る上で重要な情報が一目で分かるように配置されています。
用途
この画像は、会社のウェブサイトやパンフレット、採用活動などで使用することで、求職者や取引先に対して会社の概要や特徴を効果的に伝えることができます。

まとめ
この画像は、シンプルかつ効果的に会社の情報を伝える優れたインフォグラフィックです。特に求職者にとっては、会社の雰囲気や将来性をイメージするのに役立つ情報が豊富に含まれています。

GPT4Vの回答

Gemini Ultra 1.0の回答

評価: 引き分け

  • どのモデルもほぼ正しく内容を認識・理解できていました
    • ※ GPT4Turboが"各種保険"を"安全保障"と認識していました
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0