背景
- GPT4V と Gemini Ultra1.0 の画像認識の精度を比較してみる を以前書きました
- GTP4 Turboの画像認識機能や、Gemini pro 1.5も使えるようになったので、同じ画像でどうなるか比較してみようと思います
- ※3枚の画像を対象に、かなり主観的に評価しているのでご注意ください
先に結論
- 日本語の認識能力においてはやはりGemini系の方が精度高かったです
- Gemini Ultra 1.0 と Gemini Pro 1.5ではそこまで大きな差はないように思いました
- GPT4TurboはGPT4Vより少し良くなっているかなという感覚でした
- 日本語認識能力が少し上がり、細かい画像を認識し、詳細に文章を生成してくれるイメージ
- Gemini Ultra 1.0 = Gemini Pro 1.5 >> GPT4Turbo > GPT4V という印象でした
方法
- GPT4TurboはPythonのAPI経由で確認しました.
- GeminiはGCPのVertexAIStudio経由で確認しました
使うプロンプト
前回同様以下のプロンプトを使います
この画像がどういうものかできるだけ詳しく教えてください。この画像を見たことがない人に対して、この画像のメッセージが伝わるように説明をしてください。文字としては何が記述してあって、どれが重要か。物体は何が写っていて何が重要か。この画像は何で、誰に何を伝えるためのものか。わかりやすく説明してください。
1つ目
GPT4Turbo
Gemini Pro 1.5
テキスト情報と重要ポイント
CANVA AirDots ワイヤレスイヤホン: これが商品の名前です。大きく表示されているので、最も重要な情報です。
Bluetooth5.0自動接続をサポート: このイヤホンはBluetooth5.0に対応しており、自動的にデバイスと接続されることを示しています。
AI音声アシスタント: AI音声アシスタントに対応しており、スマホを探したり、ナビを開いたり、メッセージを送ったり、写真を撮ったりすることができます。
急速接続: 自動接続機能により、ケースから取り出すだけで使えることを強調しています。
画像情報と重要ポイント
白いイヤホンと充電ケース: シンプルで清潔感のあるデザインが特徴です。
浮かんでいる様子: ワイヤレスであること、軽快さを表現しています。
広告の目的とターゲット
この広告は、CANVA AirDots ワイヤレスイヤホンに興味を持つ人々に向けて、その特徴と利便性をアピールすることを目的としています。シンプルで使いやすいワイヤレスイヤホンを求めている人、AI音声アシスタント機能に興味がある人などがターゲットと考えられます。
まとめ
この広告は、CANVA AirDots ワイヤレスイヤホンの特徴を簡潔に、かつ視覚的に訴求することに成功しています。デザイン性と機能性を兼ね備えたワイヤレスイヤホンを探している人にとって、魅力的な選択肢となり得るでしょう。
GPT4Vの回答
Gemini Ultra 1.0の回答
評価: Gemini Pro 1.5がいい
- Geminiどちらもは細かい日本語文字まで読めているところがいいところです
- Gemini Ultra 1.0 はハルシネーションを含んでいたため今回はGemini Pro 1.5の方が評価を高くしました
- GPT4VとGPT4Turboは小さい日本語表記の記載がなかったためGeminiに劣ります
- GPT4Vはハルシネーションが発生していたのでその点はGPT4Turboの方が高く評価できます
- Gemini Pro 1.5 > Gemini Ultra 1.0 >>> GPT4Turbo > GPT4V という順序になります
2つ目
GPT4Turbo
Gemini Pro 1.5
この画像は、ワイヤレスイヤホンの製品紹介を目的とした広告バナーです。白を基調としたシンプルなデザインで、イヤホン本体と充電ケースがそれぞれ3回登場します。
画像に含まれる要素と重要ポイント:
Bluetooth 5.0: 画像上部に大きく書かれたテキストで、このイヤホンの特徴である最新のBluetooth技術をアピールしています。高速で安定した接続や、データ転送速度の向上により、音楽やゲームがスムーズに楽しめることを強調しています。
4.5gの軽さ: イヤホンの軽量さを強調するテキストです。装着時の快適さと、運動時にも外れにくいことを伝えています。
12h連続再生: イヤホンのバッテリー駆動時間の長さを示すテキストです。充電ケースと併用することで、長時間使用が可能であることをアピールしています。
イヤホン本体と充電ケースの画像: シンプルなデザインの白いイヤホンと充電ケースが3回登場します。清潔感と洗練されたイメージを演出しています。
画像の目的とターゲット:
この画像は、ワイヤレスイヤホンの購入を検討しているユーザーに向けた広告です。最新のBluetooth技術や軽量さ、長時間再生といった特徴を強調することで、製品の魅力を訴求しています。特に、音楽やゲームを頻繁に楽しむ方や、運動時にイヤホンを使用する方にとって魅力的な選択肢となるでしょう。
まとめ:
この画像は、ワイヤレスイヤホンの魅力をシンプルかつ効果的に伝える広告バナーです。製品の特徴を簡潔にまとめ、視覚的に訴求することで、ユーザーの購買意欲を刺激することを目的としています。
GPT4Vの回答
Gemini Ultra 1.0の回答
評価: Gemini Ultra 1.0がいい
- GPT4TurboもGemini Pro 1.5のどちらも細かい日本語表記を認識できていませんでした
- GPT4TurboもGemini Pro 1.5もGPT4Vよりは画像の詳細を認識できていました
- Gemini Ultra 1.0 が最も文字認識も正しく行い、情報量も多かったです
- どれもハルシネーションはありませんでした
- Gemini Ultra 1.0 > GPT4Turbo = Gemini Pro 1.5 >> GPT4V という順序になります
3つ目
GPT4Turbo
Gemini Pro 1.5
内容
画像には、以下の情報が分かりやすく配置されています。
会社の特徴 : 画像上部に大きく書かれており、この画像のメインテーマであることが分かります。
社員の男女比: 男性80%、女性20% であることが円グラフで示されています。
社員人数 : 50人と記載されており、会社の規模感が分かります。
平均年齢: 28歳と記載されており、比較的若い社員が多い会社であることが分かります。
利益率: 20%と記載されており、会社の収益性が高いことが分かります。
売り上げの成長率: 2028年から2030年にかけて右肩上がりの棒グラフで示されており、会社の成長性が期待できることが分かります。
パートナー: 50社と記載されており、多くの企業と協力関係にあることが分かります。
地域貢献率: No.1 と記載されており、地域社会に貢献していることが分かります。
福利厚生: 各種保険、育児・介護支援、通勤交通費の補助、教育・研修制度など、充実した福利厚生が箇条書きで示されています。
データ: 2030年時点のデータであることが記載されており、将来の展望を示しています。
特徴
シンプルで分かりやすいデザイン: 青を基調としたシンプルなデザインで、情報が整理されており、見やすいです。
視覚的な表現: 円グラフや棒グラフなどの視覚的な表現を用いて、情報を直感的に理解しやすくしています。
重要な情報が一目で分かる: 社員数、平均年齢、利益率、成長率など、会社を知る上で重要な情報が一目で分かるように配置されています。
用途
この画像は、会社のウェブサイトやパンフレット、採用活動などで使用することで、求職者や取引先に対して会社の概要や特徴を効果的に伝えることができます。
まとめ
この画像は、シンプルかつ効果的に会社の情報を伝える優れたインフォグラフィックです。特に求職者にとっては、会社の雰囲気や将来性をイメージするのに役立つ情報が豊富に含まれています。
GPT4Vの回答
Gemini Ultra 1.0の回答
評価: 引き分け
- どのモデルもほぼ正しく内容を認識・理解できていました
- ※ GPT4Turboが"各種保険"を"安全保障"と認識していました