1. はじめに
本稿は QualiArts Advent Calendar 2025の13日目の記事になります。
CyberAgentグループではAIによる業務効率改善に力を入れています。
例: 開発AIエージェント導入に年間約4億円を投資決定
これは弊社QualiArtsでも同じで、1日目に住田さんが書いているように、開発にAIツールの活用が進められています。
一方で、AI関連のツールやLLMは日々新しく生まれてきており、またすでにあるツールやLLMに関しても日々進化しており、もう何があって何が良いのか追うのも大変な状態になっています。
そこで、今回はGoogleが最近新たに出してきたツールであるAntigravityを利用して、各種LLMの比較を行いたいと思います。
この記事が今後のAI活用の一助となれば幸いです。
この記事が対象とする読者
- 生成AIを開発に活用してみたいと考えている方
- 最近のLLMの違いをなんとなく知りたい方
2. Google Antigravity とは
Google Antigravity は Google が 2025-11-18(米国時間)に公開したAI搭載型IDEです(参考: Google Antigravity)。
Antigravity は、通常のエディタと違い、エージェントファーストで考えられています。
そのため、ブラウザ制御機能、非同期インタラクションパターン、そしてエージェントファーストの製品フォームファクタなど、エージェントが複雑なエンドツーエンドのソフトウェアタスクを自律的に計画・実行できるようになっています。
今後、このようにエージェントがメインで開発をし、人間は指示をするのみとなっていくことが想像できます。
そのため、今回は以下のような内容で各種モデルを比較していきたいと考えています。
- 世の中にすでにあるゲームを作ってもらう
- 簡単な指示ではあるが、目標とする成果物が明確な指示
- 簡単だが方向性が明確な改修を行ってもらう
- 大きくはブレないが、少し解釈の余地がある指示
- 「いい感じに」といったふわっとした改修を行ってもらう
- 解釈のしようがいくらでもある指示
なお、本記事では Antigravity 自体の実装詳細は深追いせず、「同一課題を複数モデルで解かせて差分を見る」実験台として扱います。
3. 比較するモデルの概要
この検証では Antigravity で利用可能なモデルから以下の4種類を比較します。
- Gemini 3 Pro
- Claude Sonnet 4.5
- Claude Sonnet 4.5 Thinking
- GPT-OSS 120B Medium
Gemini 3 Pro
- 開発元: Google DeepMind / Google
- 公開時期: 2025年11月18日
- 特徴:
- 2025年12月現在において、「Our most intelligent model yet」「Best for complex tasks and bringing creative concepts to life」として位置づけられる最上位モデル(公式)
- テキスト/画像/動画/音声/コードを横断するマルチモーダル理解・統合が強み
- コード実行・検索・関数呼び出しなどの高度なツール実行と、エージェント的なマルチステップ実行を備える
- フロントエンド開発や対話型教材生成など、実務ユースケースが公式で具体的に例示されている
Claude Sonnet 4.5
- 開発元: Anthropic
- 公開時期: 2025年9月29日
- 特徴:
- 2025年12月現在において agents / coding / computer use を「世界最高」と位置づけるフラッグシップ
- 長時間タスクを少数ずつ着実に進行し、事実ベースの進捗を返すエージェント性。並列ツール呼びで推測検索・同時ファイル読みをこなすほか、ブラウザ操作を含む computer use が高精度
- コーディングは計画→実装→リファクタ→バグ修正までを安定してこなし、SWE-Bench Verified でも前世代より改善。大規模リポジトリや長尺計画でも破綻しにくい
- コンテキストアウェアネスと高度なコンテキスト管理(外部ファイル保持・自動コンテキスト編集)で長尺セッションの状態保持に強い
- ドメイン知識をコーディング/ファイナンス/サイバーセキュリティで強化し、脅威パッチ自動化やリスク分析など精度重視のワークロードに向く
Claude Sonnet 4.5 Thinking
- 開発元: Anthropic
- 公開時期: 2025年9月29日
- 特徴:
- ベースの Sonnet 4.5 と能力は同一だが、思考テキストを可視化するモード
- ステップ推論や検証ポイントを開示するため、デバッグ・レビューに有用
- 思考なしモデルとの違い: 推論過程を出す分トークン消費と応答時間が増え、説明が冗長になりやすいが、進行理由の透明性が得られる
- 通常は応答品質が同等で、アウトプットの検証性だけが向上する
GPT-OSS 120B Medium
- 開発元: OpenAI(Apache 2.0 のオープンウェイトモデル)
- 公開時期: 2025年8月5日
- 特徴:
- o4-miniに近い推論性能を、単一 80GB GPU で実行できる高コスパな大規模オープンモデル
- Responses API 互換で、reasoning_effort(low/medium/high)により 精度・レイテンシ・コストを調整可能
- tool use・関数呼び出し・エージェント用途を前提に最適化され、CoT を活用した高度な推論を実行
- SFT+高計算量RLで整えられたモデルに加え、敵対的ファインチューニング版を用いた Preparedness Framework 評価により安全性を強化
- Codeforces・MMLU・TauBench で o3-mini 超、o4-mini 近傍、AIME や HealthBench でも 競合上位の推論性能を示す
4. 比較に用いる題材
各モデルで実装して比較する題材として、本稿では2048を選択しました。
2048は、2014年にGabriele Cirulli氏が公開したスライドパズルで、4x4グリッド上で同じ数字タイルをスワイプ/キー操作で合成し、2048のタイル到達を目指すゲームです。(参考: play2048.co, GitHubリポジトリ)
- 基本ルール:
- 毎ターン、盤面にランダムで
2または4のタイルが1枚出現 - 上下左右に全タイルをスライドし、同じ値が接触したら
1回だけ合成して倍の値になる - 盤面が埋まり、スライドや合成が一切できなくなったらゲームオーバー
- 毎ターン、盤面にランダムで
- 選定理由:
- 有名なゲームでどのモデルもルールに関する知識を持っていることが期待できる
- 画像などの外部リソースが不要で、HTML/CSS/JS だけで実装できるため、モデルのコード出力をそのまま検証しやすい
- コア仕様が小さい一方で、コンボ要素やアニメーションなど拡張余地が大きく、追加要件への対応力を比較しやすい
- 比較観点:
- 正確性: 合成ルールやランダム生成の扱いをモデルが誤解しないか
- 創造性: スコア計算、コンボ、演出(アニメーション)などの拡張提案をしたときに良い結果を出すか
- 実装現実性: イベント処理や描画更新が正しく行われるか
5. 実際に実装した結果と比較
5.1 基本的な実装
まず、既存のゲーム名(2048)を伝えて、明確に何を作ってほしいか指示した結果を比較します。
5.1.1 プロンプト
「2048」を HTML/CSS/JavaScript で実装してください。
ドキュメントはすべて日本語で書いてください。
最低限の要件:
- 4×4 の盤面
- 数字タイルをスライドして合体
- 矢印キーで操作
- ランダムに新しいタイルが出る
- デザインは最小限でよい
ゲームとしてプレイできる最小限のロジックを書いてください。
細かい挙動(合体の順序、連続合体の扱いなど)は適宜あなたの判断で実装して構いません。
5.1.2 各モデルの結果
Gemini 3 Pro
- コード量
- index.html: 2290 characters
- style.css: 4003 characters
- script.js: 8324 characters
- 問題なく動くものはできた
- 表示は少し崩れている(白枠が重なっている)
Claude Sonnet 4.5
- コード量
- index.html: 1105 characters
- style.css: 3696 characters
- game.js: 6026 characters
- 問題なく動くものができた
- 表示崩れもない
Claude Sonnet 4.5 Thinking
- コード量
- index.html: 851 characters
- style.css: 2903 characters
- game.js: 5294 characters
- 問題なく動くものができた
- 表示崩れもない
GPT-OSS 120B Medium
- コード量
- index.html: 303 characters
- style.css: 1564 characters
- script.js: 3408 characters
- 問題なく動くものができた…と見せかけて、上下の方向キーの挙動が逆になってた
5.1.3 比較結果
- もっともコード量が少なくシンプルだったのはGPT-OSS
- どのモデルもルールの実装は問題なかった
- GPT-OSSのみキーの入力が逆になっていた
- Gemini 3 Pro のみ表示崩れが発生していた
- ClaudeモデルはThinkingだろうがそうでなかろうが、やはり作られるものは似ていた
- 見た目
- 「新しいゲーム」ボタンが作られている
5.2 方向性がある程度明確な改修
次にある程度方向性が明確な改修の指示を与えて比較します。
5.2.1 プロンプト
連続でタイルを合体できたときスコアが上がるようにしてください。
またユーザーにコンボとして、その連続してタイルが合体できた回数を表示するようにしてください。
5.2.2 各モデルの結果
Gemini 3 Pro
- コード量
- index.html: 2418 characters
- style.css: 4563 characters
- script.js: 8938 characters
- 問題なく動くものはできた
- 相変わらず表示は少し崩れている
- 修正の指示もしていないので当たり前ではあるが
Claude Sonnet 4.5
- コード量
- index.html: 1287 characters
- style.css: 4374 characters
- game.js: 7392 characters
- 問題なく動くものができたが、ルールの解釈が違った
- 同時に消した数字の数がコンボとして数えられた
- コンボしていないときはコンボ表示を隠す実装になっていた
- コンボ表記はちょっとアニメーションもする
Claude Sonnet 4.5 Thinking
- コード量
- index.html: 1025 characters
- style.css: 3457 characters
- game.js: 5632 characters
- 問題なく動くものができたが、ルールの解釈が違った
- こちらも同時に消した数字の数がコンボとして数えられた
- コンボしていないときはコンボ数0で表示されていたが、2以上になると数字が強調される実装になっていた
GPT-OSS 120B Medium
- コード量
- index.html: 341 characters
- style.css: 1741 characters
- script.js: 3922 characters
- 改修前からある上下逆転以外はとくに問題なく動く
- コンボ表記も含めてとてもシンプル
5.2.3 比較結果
- Claudeの「連続でタイルを合体」の定義は自分の解釈とは異なっていた
- GeminiとGPT-OSSは想定どおりの挙動
- 見た目がもっとも良かったのはClaude
5.3 方向性が明確ではなくモデルに内容を委ねた改修
最後に、「いい感じに」といった、方向性が明確ではなく、モデルに実装内容を委ねた改修をして比較します。
5.3.1 プロンプト
方向キーを入れたときに、いい感じのアニメーションとエフェクトを入れてください
5.3.2 各モデルの結果
Gemini 3 Pro
- コード量
- index.html: 2418 characters
- style.css: 5526 characters
- script.js: 16251 characters
- 改修によって左右のキーが効かなくなってしまった
Claude Sonnet 4.5
- コード量
- index.html: 1287 characters
- style.css: 6763 characters
- game.js: 11278 characters
- 問題なく動くものができた
- アニメーションも悪くない
Claude Sonnet 4.5 Thinking
- コード量
- index.html: 1025 characters
- style.css: 5603 characters
- game.js: 9932 characters
- 問題なく動くものができた
- アニメーションも悪くない
GPT-OSS 120B Medium
- コード量
- index.html: 341 characters
- style.css: 6115 characters
- script.js: 4608 characters
- 問題なく動くものができた
- アニメーションも悪くない
- 文字色を変えるアニメーションも追加してくれた
5.3.3 比較結果
- Gemini以外はほぼ似たようなアニメーション
- Geminiのアニメーションが自分が想定したものに近かった
- 一方で、Geminiだけ改修によって操作に不具合が出てしまった
5.4 比較総まとめ
- コーディングに関してはClaudeが最も優秀に感じられた
- ただし、Thinkingとそうでないのでは、今回の題材ではあまり違いを感じられなかった
- 余談だが、Claudeだけがコメントを日本語で書いてくれた。GeminiとGPT-OSSは英語のコメントを書いていた
- こちらの意図を解釈するのはGeminiが優秀かもしれない
- Claudeに関してはこちらの意図と少しズレた成果物を出すことが度々みられた
- Antigravityを初めとした最近のエージェントは計画を事前に出してくれるので、そこで方向性を正していけばよいかと思う
- Claudeに関してはこちらの意図と少しズレた成果物を出すことが度々みられた
- 表現に関しては基本的にはClaudeが無難に良いものを出してくれる
- 結論として、この4つであれば一旦Claudeを利用することをおすすめする
- ただし、Antigravityの場合はGemini以外はすぐにリミットに引っかかるので注意
6. まとめ
- 本稿ではGoogleAntigravity上で主要4モデルを用いて2048の実装を行い、結果の比較を行いました
- いずれも最低限の実装は(基本的には)問題ありませんでした
- 解釈力・安定性・表現力に関しては、各モデルで差がみられました
- コーディング品質とデザインの安定感は Claude が最も高く、初めに試すにはこれが良いと感じました。ただし、今回の課題ではThinkingとそうでないモデルの差分はあまりみられませんでした
- こちらの意図を汲む力や発想の幅は Gemini が優位に感じられた反面、実装の安定性では若干のリスクが見られました
- GPT-OSS は軽量でシンプルなコードを返しますが、入力解釈の細部(上下キーの逆転など)には不安があり、また、デザインはあまりにシンプルなものが出る傾向がありました
- 以上を踏まえ、Antigravity で日常的に使うならまずは Claude を軸にしつつ、探索的なアイデア出しや「いい感じ」の演出案を試す場面で Gemini を併用する使い分けが良いように感じます









