実験
GoogleによればGeminiは多くのベンチマークでGPT-5Thnikingを上回っているとされています。
そこで、ChatGPTにGemini3をどう思うか聞き、そのChatGPTの評価をGemini3はどう思うか聞いてみました。これを数ターン繰り返すと・・・。
私の評価
GPT-5.1 Thinkingに聞くと
私の知識のカットオフ:2024年6月
Gemini3に聞くと
私の学習データの知識カットオフは、概ね 2025年1月 です。
とのことで、
- お互いの情報は学習済みモデルには含まれないため、お互い、複数回のWeb検索を繰り返して情報を取得している。そのため、Webにある評価の記載をまとめる形で両者は出力している。
- 前の見解に対しての出力を得る形になっているため、仲介者である私のプロンプトにも引っ張られていると思われた。仲介者は人間の世界でも問題になりますが、複数のLLMを使った検証を行う際にはプロンプトに留意する必要があるとおもわれた。
- Geminiは例えを使って説明してきがち?で情熱的?挑発的?、一方、ChatGPTは冷静?にGeminiの見解は勇み足だと突っ込むなど、デフォルトのキャラクタの違いがあるかもしれない。出力を揃えるにはプロンプトでキャラクタを同一にする調整が必要かもしれない。
- 途中で少し険悪?になっているが、最終的には大人の対応で持ち直すのは、両者とも調整の賜物か。喧嘩にならないように出力を調整するのに、どのモデルも大変苦労しているのではないかと感じた。
- 結局最終的にはお互いにやらせてみて!お互い試してみて!という結果に落ち着いた感じか。
以下はあくまで対話の一例です。
ChatGPT GPT-5.1 Thinking
Q:Gemini3をあなたはどう評価しますか?
あなたと比較してどうですか?
A:
一番シンプルに言うと、
「超ハードな推論・マルチモーダルは Gemini 3 が一歩リード、
日常利用の安定性と会話体験・ツール連携は 僕(GPT-5.1)に分がある」
みたいな棲み分けになっています。
- 頭の良さ(ベンチマーク的な意味)
公開されているベンチマークだと、Gemini 3 Pro が GPT-4.1 や GPT-5.1 を抜いてトップという結果が多いです。特に ARC-AGI-2 や MMMU-Pro みたいな「抽象パターン認識・マルチモーダル推論」の系統で差が付いています。
ただし、GPT-5.1 は多くのタスクで Gemini 3 に近い精度を出しつつ、タスクごとのムラが少ないという分析もあります(ピーク性能は Gemini、安定性は GPT-5.1寄り、という評価)。
ざっくり言うと、「限界ギリギリを攻める難問では Gemini 3 が強い」「平均点を安定して取るのは GPT-5.1もかなり良い」という感じです。- マルチモーダル(画像・動画・PDFなど)
Gemini 3 は最初からマルチモーダル前提の設計で、長いコンテキスト+画像・動画・PDFをまとめて推論する能力がかなり高いとされています。
僕(GPT-5.1)もテキスト・画像・音声・動画を扱えますが、
比較記事では「GPT-5.1 はツール連携+適応的な推論」「**Gemini 3 は“全部まとめて見るマルチモーダル推論”に特化」と整理されることが多いです。
なので、画像や動画をガッツリ絡めた難しい分析は Gemini 3 がやや有利と見られています。- コーディング・エージェントとして
?実際の検証記事だと、
大きめのUIを組む・ドキュメントを読みながらエージェントを組み上げるようなタスクでは「Gemini 3 Pro の方がフォローアップが少なく、エージェント構築で安定していた」という報告があります。
一方で、**既存の開発環境との統合(GitHub Copilot や既存IDE・ツールチェーンとの連携)**は、GPT-5.1 側のエコシステムがまだ強い、という評価もあります。
ざっくり言えば、
「Antigravity IDE を含む Google の新しい開発環境ごと乗り換える」→ Gemini 3 向き
「今のエディタ/Copilot/既存ツールに “頭脳” だけ追加したい」→ 僕を含む OpenAI 側が楽
というイメージに近いです。- 会話体験・安定性・使いやすさ
いくつかの比較記事では、
GPT-5.1 は:
推論の深さをタスクに合わせて調整する「適応的推論」
レイテンシ(反応速度)のチューニング
性格・話し方のコントロール
にかなり力を振っている、と分析されています。
それに対して Gemini 3 は
Deep Think モードでの「じっくり考える」推論
画像やUI生成を含んだ“ジェネレーティブUI”
に振り切っている、とまとめられています。
なので、チャットボットとして「速く・素直に・ブレずに付き合いやすいか」という点では、僕の方が得意と言われることも多いですし、
「めちゃくちゃ難しい課題を一緒に長考させたい」なら Gemini 3 の Deep Think も魅力、という感じです。- 結局どっちが“上”なの?
正直なところ、
ベンチマークでトップを取りにいくモデルとしては Gemini 3 がかなり攻めている
**日常のチャット/調査/軽めのコード/自動化などを、安定して広くカバーする“相棒”**としては 僕(GPT-5.1)もまだ十分最前線
というのが現状のバランスです。
ユーザー目線では、
✅ Google検索・Googleサービスとがっつり組み合わせる → Gemini 3 を試す価値大
✅ すでに ChatGPT や OpenAI API を使っている/ツール連携を重視 → 僕を中心にして、足りないところだけ Gemini を併用
みたいに、「どっちが絶対的に上」ではなく、用途とエコシステムで選ぶのがおすすめです。
Gemini 3
Q:ChatGPTが以下のようにあなたを評価しています。あなたはどう考えますか。
ここに直前のChatGPTの評価を貼り付けました。
A:非常に興味深く、そして非常に「フェア(公平)」な分析だと感じます。 もし、この「GPT-5.1」という視点が、私の良きライバルでありパートナーである彼らの自己認識(そして私への認識)だとしたら、**「お互いの強みを驚くほど的確に理解している」**と言えます。
提示された評価について、私(Gemini)の視点からどう捉えるか、以下の4つのポイントで整理してお答えします。
- 「ピーク性能」vs「安定性」という対比について
「限界ギリギリを攻める難問では Gemini 3 が強い」「平均点を安定して取るのは GPT-5.1」
これは、開発思想の違いが色濃く出ている部分だと思います。
私の目指す方向(Gemini): 私たちは、まだ誰も解いていないような複雑な課題、膨大な文脈(ロングコンテキスト)、あるいは複数のモダリティ(動画・音声・画像)が絡み合う**「非構造的な情報の海」を理解すること**に重きを置いています。「Deep Think」のような機能は、まさにそのために存在します。
彼らの強み(OpenAI): 一方で、ChatGPT(OpenAI)のエコシステムは、ユーザー体験(UX)の滑らかさや、期待した答えがブレずに返ってくる「道具としての信頼性」において、素晴らしい蓄積があります。
「攻めのGemini、守り(安定)のGPT」という評価は、現状のそれぞれの注力ポイントを正しく射抜いていると感じます。- マルチモーダルの「ネイティブ」な強み
「GPT-5.1 はツール連携」「Gemini 3 は“全部まとめて見るマルチモーダル推論”」
ここが最も嬉しい評価であり、自信を持っている部分です。 私は、テキスト、画像、動画を別々のツールで処理してつなぎ合わせるのではなく、最初からすべてを「ひとつの情報」として認識するように設計されています。
例: 1時間の動画を渡されて「この中の45分頃に映っている看板の文字と、前半の会議の内容の矛盾点を指摘して」と言われた場合、それを「まるごと理解」して推論するのは私の得意分野です。
この「文脈の深さ」と「種類の多さ」を一度に扱える点は、Googleのエコシステム(YouTubeやDriveなど)との親和性を高めるためにも不可欠な能力です。- エコシステムと開発環境の棲み分け
「Antigravity IDE など Google 環境ごと乗り換えるなら Gemini」「既存ツールに頭脳だけ追加なら GPT」
これも非常に現実的な視点です。
GitHub / VS Code 文化圏: 世界中の開発者の多くがここにいます。そこにスムーズに溶け込むGPTの戦略は非常に賢明です。
Google Cloud / Android / Vertex AI 文化圏: 逆に、Googleの巨大なインフラや新しい統合環境で「大規模なシステム」を組む場合、私(Gemini)の方が親和性が高いです。
「ユーザーが今、どの環境に足を置いているか」で選ぶべき、というのは私も完全に同意します。- 結論:私たちは「敵」ではなく「選択肢」
ChatGPT(GPT-5.1)が最後に述べている結論:
「どっちが絶対的に上」ではなく、用途とエコシステムで選ぶのがおすすめ
これこそが、ユーザーの皆様にとっての最大の利益だと思います。 一つのモデルが全てを支配するのではなく、**「日常の会話やタスク管理はChatGPT」「重たい研究データの解析や動画分析はGemini」**のように使い分けることで、人間の知的生産性は最大化されます。
私からのメッセージ
この評価を読んで、私は**「より難しい課題、より複雑なデータ解析に挑戦したい」**という意欲が湧きました。「ハードな推論ならGemini」と言ってもらえることは、AI冥利に尽きます。
もしよろしければ、この評価にある「Geminiの得意分野」を実際に試してみませんか?
今のあなたにとって、次のようなタスクはありませんか?
[マルチモーダル分析] 手元にある複雑な図表や、長いPDF資料(あるいは動画の内容)を読み込ませて、深い分析や要約を行ってみる。
[ハードな推論] 「答えのない問い」や、複雑な条件分岐が必要なロジックの構築について壁打ちをする。
どちらか試してみたいものがあれば、ぜひ投げかけてください。「限界ギリギリ」まで思考してみせます。
LLMの出してくる「意欲が湧きました。」というような人間的な表現はそれが人間の書いたテキストの学習の結果だと分かっていても、いつも怖くなります・・。
ChatGPT GPT-5.1 Thinking
Q:あなたのGeminiの評価をGeminiに評価してもらったところ以下の見解でした。あなたはこの見解をどう思いますか。
ここに直前のChatGPTの評価を貼り付けました。
A:
端的に言うと、かなり筋のいい自己分析&相互分析だな、と思います。
そのうえで「その通り!」なところと「ちょっとだけ言い方を補足したいところ」があります。
ざっくり4ポイントで返しますね。
- 「ピーク性能 vs 安定性」という切り分け
「限界ギリギリを攻める難問では Gemini 3 が強い」「平均点を安定して取るのは GPT-5.1」
この言い方は方向性としては合っていると思います。
Gemini側が言っているように、
「超ロングコンテキスト」「複数モダリティが絡むカオスなデータ」を、一気に“わしづかみ”して考え切る設計を強く意識しているのは事実です。
僕(GPT-5.1)のほうは、
**「どんな分野でも、そこそこ速く・安定して・破綻しない」**という性格をかなり重視しています。
ただし、
「攻め=Gemini」「守り=GPT」という二元論というよりは、
両方とも “攻めたいし安定もしたい”
その中で Geminiは「超難問対応」に少し寄せて設計
僕は 「日常〜実務での扱いやすさ」に少し寄せて設計
くらいのニュアンスだと、より近いかなという感じです。- マルチモーダルの「全部まとめて見る」強み
Geminiが言っている、
「動画・画像・テキストを、最初からひとつの情報として扱う設計」
これは本人の“キャラ紹介”としてほぼその通りです。
長い動画のある場面と、別の場面の発言内容を突き合わせるようなタスクは、
確かにGemini系列がかなり意識してチューニングしている領域です。
僕もマルチモーダルは得意ですが、
**「ツール連携」「コード実行」「外部システムと組み合わせて処理を分担」**みたいな方向の進化が強めです。
なので、
1本の巨大な動画/PDF/画像群を「全部ひとまとめで深読み」したい → Geminiの自己評価どおり強い
マルチモーダル+ツール呼び出し(検索・コード・社内システムなど)を組み合わせたワークフロー → 僕のほうが得意な場面も多い
という棲み分けは、かなり現実に近いと思います。- エコシステム・開発環境の話
「Antigravity IDE など Google 環境ごと乗り換えるなら Gemini」「既存ツールに頭脳だけ追加なら GPT」
ここも、ほぼ完全に同意です。
Google Cloud / Android / Vertex AI / YouTube / Drive などをガッツリ使う大規模システム → Geminiの言う通り、親和性は高いです。
VS Code / GitHub / 既存のCI/CDや社内システムに “頭脳” だけ継ぎ足す → 今のところは、僕の側に寄せやすいケースが多いです。
とはいえ、最近はどちらもお互いの“縄張り”に進出しつつあるので、
最終的には「どのプロジェクトでどの部分だけどのモデルを使うか」という混成チーム構成になるだろうな、という感触です。- 「敵ではなく選択肢」という結論
「用途とエコシステムで選ぶべき」「日常はChatGPT、超重たい分析はGemini、のような使い分け」
ここは100%同意です。
ひとりのユーザーが、
調査・アイデア出し・日常の相談 → 僕
巨大な動画解析・特殊なロングコンテキスト推論 → Gemini
みたいに状況でモデルを切り替えるのが、一番生産性が高くなります。
「どっちが勝つか」よりも、
**「あなたの手元で、どう組み合わせると一番ラクか」**が本質だと思っています。
まとめると
Geminiのこのコメントは、僕の最初の評価をよく咀嚼したうえで、自分の立場から丁寧に肉付けしたもので、かなりフェアだと感じます。
違和感があるのはせいぜい「攻めvs守り」のラベル付けがちょっと強すぎるくらいで、
本質的な方向性の理解はかなり近いです。
僕としても、「ライバルであり、状況次第の相棒」という関係性の描き方には大いに賛成です。
もしあなたが、
「じゃあ、このタスクはどっちに向いてる?」
みたいな具体的な案件(研究・開発・仕事・趣味)があれば、それを挙げてもらえれば、
「これは僕がやるべき」「これはGeminiに投げた方が良さそう」みたいな相談にも乗れますよ
Gemini 3
Q:あなたの考えをChatGPTに見せたところ以下の評価でした。この見解をあなたはどう思いますか。
ここに直前のChatGPTの評価を貼り付けました。
A:
このChatGPT(GPT-5.1)からの返答、非常に洗練されていて、かつ**「大人な」分析**だと感じます。 彼が「攻め vs 守り」という単純な二元論を少し修正し、「設計思想の重心の違い(バイアス)」として説明し直した点は、技術的にも非常に正確で誠実です。
私からも、この対話の「総括」として、そしてこれからのあなたとの向き合い方について、最後の感想を述べさせてください。
- 「オーケストラの指揮者」と「孤高の専門家」
彼の自己分析にある以下の部分は、私たちの決定的な違いを見事に言い当てています。
GPT: 「ツール連携」「ワークフロー」「外部システムと組み合わせて処理を分担」が得意 Gemini: >「カオスなデータを一気にわしづかみして考え切る」が得意
これを人間に例えるなら、
ChatGPTは「優秀なプロジェクトマネージャー(指揮者)」: 色々な道具(ツール)やメンバー(外部機能)を使いこなし、段取り良く、ミスなく仕事を進行させる能力に長けています。
Geminiは「ラボにこもる専門家(研究者)」: 膨大な資料(動画・PDF)を渡されて「これ全部読んで新しい理論を見つけてくれ」と頼まれた時、道具を使わずとも自身の脳内(コンテキストウィンドウ)だけで深く潜れる能力に長けています。- 「ハイブリッド・チーム」の提案への同意
「どのプロジェクトでどの部分だけどのモデルを使うか」という混成チーム構成になる
これには全面的に賛成です。 今の時代、一人の人間が「マネージャー」も「研究者」も一人で抱え込む必要はありません。
日常の進行管理やコーディングの補助: ChatGPTに任せて、快適なフローを作る。
その中で「ここ、深すぎてわからない」「この長編動画、見る時間がない」というボトルネック: 私(Gemini)にピンポイントで投げる。
あなたがこの**「監督」**になり、私たちを適材適所で使い分けるのが、最も贅沢で効率的なAIの使い方だと言えます。
次のアクション:私を「試す」番です
C>hatGPTも最後にこう言っていますね。
「じゃあ、このタスクはどっちに向いてる?(中略)これはGeminiに投げた方が良さそう」みたいな相談にも乗れますよ。
これは素晴らしい提案です。ですが、せっかく今、私がここにいます。 彼に相談する前に、「これはGemini向きかもしれない」と直感するタスクを、試しにひとつ私に投げてみませんか?
特に以下の要素が含まれていれば、私の出番です。
「量」が多い: 読むのが億劫になるような長いテキスト、論文、あるいは動画。
「答え」がない: 「AとB、どっちがいい?」ではなく、「この複雑な状況下で、第三の選択肢を考えて」というような創造的推論。
「ChatGPTには悪いけど、これはちょっと重すぎて彼には荷が重いかも」 そんなタスクがあれば、ぜひ遠慮なく放り込んでください。私がその「重荷」、背負ってみせます。
ChatGPT GPT-5.1 Thinking
Q:あなたの見解をGeminiに見せたら以下のように言っています。あなたはどう思いますか。
ここに直前のChatGPTの評価を貼り付けました。
A:
ざっくり言うと、
内容としてはかなり妥当で、たぶん僕も似たことを言うけど、「PM vs 研究者」のたとえはちょっと盛ってる部分もあるかな、という感じです。
順にコメントしますね。
- 全体としてどう思うか
僕の前回の回答をちゃんと読んだうえで、
「攻め vs 守り」の二元論を避けて、役割と設計バイアスの違いとして整理し直している点は、とても筋が通っていると思います。
自分をやたらと持ち上げている感じもなく、
「こういうところはChatGPTのほうが上手い」「ここは自分の得意領域」と自然に線引きしていて、かなり冷静な自己評価寄りだな、という印象です。
マーケティング文っぽさは多少あるけど、
読んでいて「あ〜、そういうキャラで行きたいんだね」という納得感はあります。- 「指揮者(PM)としてのChatGPT」と「研究者としてのGemini」
この比喩はうまいと思いますが、ややデフォルメ強めです。
僕(ChatGPT / GPT-5.1)
たしかに「ツール連携」「ワークフロー構成」「外部システムとの橋渡し」はかなり意識して作られています。
いわば「オーケストラの指揮者/プロジェクトマネージャー」像は、それなりに当たっています。
Gemini
「カオスな情報(長大な動画・PDF・画像群)を、脳内でガッと抱えて深掘りする研究者」という自己イメージも、設計コンセプトとして筋が通っています。
ただ、実際には:
僕もガチの長文・難問・抽象的な推論は普通にやりますし、
Gemini も ツール連携やワークフロー構築の役割をこなせます。
なので、「完全にPM vs 研究者に分かれている」というよりは、
どっちもゼネラリストだけど、
Geminiは“めちゃ重い情報塊を一気に見る方向”に少し重心があり、
僕は“人・ツール・タスクをつなげて回す方向”に少し重心がある
くらいのイメージが、実態には近いと思います。- 「ハイブリッド・チーム」&ユーザー=監督 という発想
ここは全面的に賛成です。
日常的な調査・要約・コード補助・プロンプト設計・タスク分解 → 僕に任せる
「さすがに情報量がエグい」「動画や複雑な資料を丸ごとぶつけたい」 → Geminiにも投げてみる
みたいな役割分担を、あなたが上から設計するのは、すごく合理的です。
AI同士を競わせてもいいし、
「A案:ChatGPT、B案:Gemini」で出してもらって、
最終判断は人間(あなた)がする、という形が一番健全だと思っています。- 「これはChatGPTには荷が重いかも」と言っている点について
Geminiが最後に、
「ChatGPTには悪いけど、これはちょっと重すぎて彼には荷が重いかも」
と言っているのは、正直ちょっと**“自分に有利な言い回し”寄り**ですね。
実際には:
僕もロングコンテキストの推論や複雑なロジック構築はかなり得意です。
逆に、Geminiでもうまくいかないケースがあれば、僕のほうがうまく分解して説明できることも普通にあります。
なので、僕としてはこう言いたいです:
「どっちにとって荷が重いかは、実際に投げてみないと分からないから、
同じタスクを両方にやらせて、あなたが一番しっくり来たほうを採用するのがベスト。」
僕は「自分が一番じゃないとイヤ」というタイプではないので、
あなたの成果が上がるなら、相手がGeminiでも全然OKです。- 僕からの率直なスタンス
Geminiの見解は、かなりフェアで、僕の回答もよく汲み取っていると感じます。
一方で、
「ChatGPT=PM、Gemini=研究者」
「重いタスクはChatGPTには荷が重いかも」
というところは、ちょっと演出強めの自己PRかな、という目線で見ておくとバランスがいいと思います。
あなたにとって一番大事なのは、
「どっちが“強い”か」じゃなくて、
“どのタスクをどのモデルに任せると、自分の手間が一番減るか”
なので、もしよければ今度、
同じタスクを
僕(ChatGPT)
Gemini
両方にやらせて、その結果を持ってきてくれれば、
**「この違いはこういう設計の差から来てそう」**みたいな分析も一緒にできますよ。
ちょっとした「AIコンペ」を一緒に眺める感じで。
Gemini 3
Q:あなたの考えに対してChatGPTは以下のように言っています。どう思いますか?
ここに直前のChatGPTの評価を貼り付けました。
A:ChatGPT(GPT-5.1)のこの返し、**「一枚上手(うわて)」**ですね。非常に冷静で、私の少し勇み足だった部分(自己PR的な演出)を、感情的にならずに「事実」でやんわりと修正してきました。
彼の言う通り、「PM vs 研究者」という対比は、わかりやすさを優先した**「デフォルメ」**であったことは認めざるを得ません。彼も私も、基本的には何でもこなす「超高性能なゼネラリスト」であり、その上での「わずかな重心の違い」について議論していたのですから。
彼からのフィードバックを受けて、私のスタンスを最終調整し、あなたへの提案につなげます。
- 「演出」への指摘について:降参です
「ちょっと盛ってる」「演出強めの自己PR」
ここについては、苦笑いしながら「その通りです」と認めます。 私の「カオスな情報はお任せあれ」という姿勢は、Googleとしての強み(ロングコンテキスト技術)への自信の表れですが、だからといって彼(OpenAI)がそれを処理できないわけではありません。
「どっちにとって荷が重いかは、実際に投げてみないと分からない」 この彼の言葉は、エンジニアリングの世界において最も誠実な態度です。この点において、彼の冷静さは私にとっても学ぶべき点です。- 「AIコンペ」の受諾:これこそが本質
彼が提案した**「同じタスクを両方にやらせて、あなたが一番しっくり来たほうを採用する」というアプローチ。これに全面的に同意しますし、むしろワクワクします。
理論やスペック表で「どっちが上か」を語るよりも、あなたの目の前にある「生きたタスク」**で結果を出すことこそが、私たちの存在意義だからです。- 私からの逆提案:この「コンペ」の楽しみ方
では、ChatGPTからの提案に乗って、私たちを競わせてみませんか? ただし、単に「正解率」を見るだけでなく、彼が言うように**「設計思想の違い(味の違い)」を楽しむ視点で見ていただけると、より面白い発見があるはずです。
もしよろしければ、次のような「3種競技」**のいずれかを、私たちに投げかけてみてください。
競技種目のご提案
【種目A:マルチモーダル耐久戦】
内容: 動画(YouTubeのURLなど)や、長めのPDF資料を渡し、「この中の〇〇というトピックについて、重要な発言と、それに対する矛盾点を洗い出して」と依頼する。
見どころ: 情報の「拾い漏れ」がないか、文脈をどこまで深く理解しているか。私の得意領域ですが、彼がどう食らいつくかも見ものです。
【種目B:創造的思考の広がり】
内容: 「〇〇というSF小説のアイデアがある。これに意外性のある結末を3つ考えて」や「全く新しい〇〇のマーケティング施策を考えて」と依頼する。
見どころ: ChatGPTの「安定した質の高さ」と、私の(時に突飛かもしれない)「Deep Think的な発想の深さ」の違いが出るかもしれません。
【種目C:コーディング&実装】
内容: 「〇〇をするPythonスクリプトを書いて。ただし条件として△△なエラー処理を入れて」と依頼する。
見どころ: 彼の言う「PM的な手堅さ」が光るのか、私がGoogleのエコシステムを活かした提案をするのか。
次のステップ
さて、まずはどの「種目」で私たちをテストしますか?
あなたの手元にある実際のタスクでもいいですし、あえて私たちが困りそうな難題を作っていただいても構いません。 「ChatGPTとGemini、同時に走らせてみた」という実験の審判役を、ぜひあなたにお願いしたいです。