【2025年10月現在】主要AIエージェント4選を使い倒して分かった体感

Last updated at 2025-10-07Posted at 2025-10-07

この記事は人間が頑張って書きました。

はじめに

基準点があったほうがそれぞれ分かりやすくて良いと思うので、
基本的にこの文章はClaude Code(モデル: Opus-4.1)を基準点として話すことにする。

TL;DR

GitHub Copilot + Codex(GPT-5-Codex(high))が最強でおすすめ。

Codex CLI (モデル： GPT-5-Codex(high))

仕様を理解して最短最小のコードを書いてくれる
- Claude Codeはコードを埋める力は強いが、よく現状（コードベースだったり、仕様だったり）を理解しないままに闇雲に埋めるから、技術的負債が溜まっていく一方だった。
  - 結局手戻りが多く起きていたし、そのぶんレビュワーに多く負荷もかかっていて、終わってみれば最初から自分でやったほうが早かったんじゃない？ということまであった。
  - つまり、Claude Codeはボールを投げる力は強いが、どこに飛ばすべきかわかってない。
  - なので、適切に「ここに問題があるからこうやってボールを飛ばすんだよ」と指摘できるだけの実力のあるエンジニアじゃないと、AIに振り回され、時間を浪費するだけだった。
- その点、Codexは仕様への理解力や、どの角度にボールを投げるべきかという思考力、判断力がとても高い。
  - Xで最新情報を眺めていても、「Codexで実装の方向性を熟考させる」→「Claude Codeで大量に書かせる」というのが一つの方法として確立されているように見える。
  - だが、両方にお金を払える人は多くないだろう。どちらか1つを選ぶなら僕はCodex派。
    - 手戻りしたくないから。あと後述の、料金あたりの労働力が高いというのもある。
- 明確なデメリットとしては、コード内の日本語コメントが文字化けする事が多い。
  - これは、PowerShellの出力はCP932（Shift_JIS）のため。
  - AGENTS.mdや各命令で「日本語を書く際はUTF-8で書いて」とお願いしておくと大抵解決する。
実行環境のベストプラクティスを理解している
- 例えばReactで、Claude CodeだとuseEffectで絆創膏を貼って終わりにするような「浅い解決」が散見されていた。
  - CodexはuseEffectで絆創膏を貼るだけでなく、根本の構造ベースで問題を解決してくれて、むしろ学びになることが多い。
- 例えばC#(dotnet)で、Codexは今書いているコードがどのようなマシンで動くか、というところまでを既存のコードベースから理解して書いてくれる。
- つまり、コードレビューでその真価を発揮する。
  - 実際、GitHub連携でCodexを使ってレビューする機能があり、まだ試せてないけど評判がいい。
Claude Codeで出来ることは大抵出来るので、現状ほぼ上位互換に近い
- 世間一般でAgentと言われている概念のうち殆どのことができる。
  - 例えば、
    - Suggest/ Auto Edit/ Full Autoといった承認モードの使い分け
      - サンドボックスと、この承認フローがあるので、Full Autoを使っても危険な操作が勝手に実行されることはない
    - CLIへの画像の添付と視覚的な読み取り
      - スクショ貼り付けて「今画面がこうなんですけど～」ができる
    - MCP対応
    - Web検索対応
      - デフォルトではなぜかオフ。設定で使うように追記すれば簡単に使える
    - hooks対応
      - 作業終了時に音を鳴らして通知とかもできる
    - 大抵Claude Codeにあるスラッシュコマンドあり
      - /clearは/newとか一部言葉は違うけど機能は一緒
    - カスタムプロンプト(Claude Codeでいうスラッシュコマンド)も作れる
      - ~/.codex/prompts/
    - 特定ファイルへのメンション
    - Usage確認
    - AGENTS.mdでやるのも一緒
    - 計画立てはもちろん(というか一番得意)
  - などなど。。。
- 唯一sub agentだけが対応していないように見える。
  - 複数のagentをオーケストレートする人にとってはClaude Codeを手放せなさそう。
  - ただ、Codex CLIの開発のスピードがあまりにも速く、毎日のようにアプデされているので、どうせ近い内にsub agentも対応するだろうという楽観的観測が個人的にある。
他のAgentより、同じ料金で多く長く使える
- CodexはGPT-5-CodexというCodex専用にチューニングされた特別モデルを使える。
  - このモデルを使用することにより、性能向上だけでなく、GPT-5と比べて使用トークン数が93.7%も少ない(OpenAI公式発表)。
    - 実際、Claude Codeは月3万円のMax20倍プランでないと、熟考させたり広いコードベースを読ませたらすぐに制限に達していた。
    - だが、Codexは月3000円のPlusプランでも十分使い物になっている。コスパがいい買い物。
VSCode拡張機能の出来が良い
- ターミナルに直接書き込む使い勝手の悪さから解放される
- なんと直感的に「Undo」ができる。
  - これだけのために使う価値がある。
    - Claude Codeはつい数日前のver2.0からできるようになったが、いまいち使い勝手が悪い....。
  - Agent駆動開発は往々にして「依頼→(応答)→上手く行ってない部分の依頼→(応答)→...」の積み重ねで、依頼ごとにコミットを分けたりしない。
    - なので、uncommited changeの状態で全体に変な修正されて、でも戻す方法がなくて詰む。
  - Codex拡張機能は神。僕はもうCLIは使ってない。

Claude Code(モデル: Opus-4.1)

いわゆるデファクト・スタンダード。Agentの先駆者。
コードをとにかく書いて書いて書きまくる力が高い。パワーはピカイチ。
今回は基準点としているので、あえて特質すべきこともないが、別に悪いわけではない。多くの会社で使っているのもこれだと思う。
メリット
- ユーザーが多く、歴史もあるので、インターネットにノウハウが溜まっている点。
  - 他のユーザーとナレッジ共有をしやすい。
  - 勉強会や交流会でもClaude Codeさえ使ってればマジョリティの会話に加われる。
- sub agentでオーケストレーションが可能。時間あたりのコードを書いてくれる量が半端ないので、うまく使いこなせたら誰も勝てない。
- 複数ファイルの一括修正において特に優れている。
  - 「いっぱい読んでいっぱい出す」印象。
- 流石にCodex程ではないが、アプデの頻度がかなり高い。
  - 「これ(Claude Code)追っときゃ間違いないだろ」感ある。
デメリット
- 料金が高いことと、複雑な指示が曖昧だと時間がかかる点、仕様への理解が劣っている点。
- 逆に言えば、ジュニアに最初からCodexを持たせたら全く勉強にならないので、ちゃんとした仕様理解やベストプラクティス理解をさせたうえでボールを投げさせる訓練にはなるかも。

Gemini CLI(モデル: Gemini 2.5 Pro)

無料枠もあるが、ちゃんと使おうと思ったら基本はお金がかかると思ったほうがいい。
- 無料枠だとGemini 2.5 flash、課金するとGemini 2.5 Proをフルで使える。
  - 無料枠だとGoogleに学習されてしまい、業務では使えない。
課金しないと使い物にならない。
- flashの性能が低すぎる。
- それにもかかわらず、従量課金制なので、恐ろしい勢いでお金が飛んでいく。
  - なぜかというと、こいつはコンテキストウィンドウが100万トークンもあり、とにかく膨大なコンテキストを読む。
    - これは、Gemini Cliが出た当時の6月当時では、他の追随を許さない圧倒的なコンテキストウィンドウだった。
    - 1タスクをめちゃくちゃ詰め込めたり、会話で物忘れをしないので、発表当時とても持て囃された。
      - ちなみに現在はClaude Sonnet 4.5が100万トークンに対応しており、コンテキストウィンドウを求めてGeminiをあえて使う理由はない。
- 僕は1日使っただけでGoogleからGemini代として10万円請求され、椅子から転げ落ちた。
  - ......実は、大概Agent駆動開発というのはこれくらいお金がかかっている。
    - 「ccusage」というClaude CodeのUsageを確認できる非公式ツールが有り、それでClaude CodeのUsageを計測したところ、普通に1日あたり数万円ぶんのトークンを使っていた。
    - 別にGoogleがEvilなわけではなくて、OpenAIやAnthiropicが出血大サービスで運営してるだけ。月額定額制のありがたさ...。
性能はClaude Code(Opus 4.0)くらいの印象。
- 2025年6月当時はかなり良かったのだが、2025/10/07現在、特に秀でてはいない。
兎にも角にもGemini 3.0待ちの状況。
- 例えば、
  - 学生や個人開発で、コードが学習に使われても構わない場合
  - どうしても無料で済ませたい場合
  - とりあえずお試し版で触らせる場合
- という状況だと使えると思う。
- 業務では推奨しない。

GitHub Copilot Agent (GPT‑5)

Agent競争で何だかんだ最後に勝つのはこいつ。
- 「GitHub」という大きすぎる胴元。
  - これは各企業のテックリードの方とも話していて意見が一致している。
他のAgentと比べ、こいつはあくまでアシスタントにとどまる。
- 開発者がテストと検証を行う必要がある。
- 提案を出すが、問題解決の反復は開発者主導。
真価は性能ではなく、GitHubとのCI/CDパイプラインによる生産性向上
- 他のAgentと違い、IDE上での補助に留まらず、CI/CDパイプラインを含む開発ライフサイクル全体を自動化・最適化するところがすごい。
  - 例えば、「npm testを実行して結果をGitHubにレポートし、承認後にデプロイする」といった一連の作業を対話的に完結できる。
  - GitHub Actionsと連携して、CI/CDステージを自動で実行しつつ各ステップで人間の承認を要求するフローを簡単に構築できるので、運用負荷が大幅に減る。
- なので、厳密にはCopilotは他のCodex/Claude Code/Gemini CLIと同列に考えるものではない。
  - モデルプロバイダーが性能の良いモデルを出すたびにCopilotもそれを使用できるため、時流と同レベルで強くなることは自明。性能ベースの議論とは別枠。
- ぶっちゃけなんでもできるので、"業務で1つだけAIを契約する"場面なら、僕は迷わずCopilot一択。
  - 最も生産性向上が期待できる。

まとめ

各AI Agentには得意分野と弱点があり、用途や予算に応じて最適解も変わる。
- Codex CLI ... 設計理解力とコスパに優れ、深いコードレビューにも強い。
- Claude Code ... 大量処理とサブエージェント機能で圧倒的だが、料金が高く仕様理解はやや甘い。
- Gemini CLI ... 長文対応かつ無料枠ありだが、実運用コストと業務利用のリスクが大きい。
- GitHub Copilot Agent ... CI/CD連携でワークフロー全体を自動化し、最も汎用的かつ将来性が高い。

これからもQiitaで発信していくので、気になったらぜひいいね・フォローお願いします！

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up