8
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【性能比較】Claude Sonnet 4.5 vs GPT-5-Codex!速度2倍差でも品質は互角?

Last updated at Posted at 2025-10-03

こんにちは、とまだです。

みなさん、Claude Sonnet 4.5の実力、気になりませんか?

「コーディングベンチマークでGPT-5-Codexを超えた」という触れ込みでしたが、実際のところはどうなのか。

Python にて同じ要件でログ分析システム(小規模)を作ってもらい、ガチンコ比較してみました。

結果は予想外に僅差。
ですが、その内訳を見ると興味深い違いが見えてきました。

今回の記事では、その詳細な比較結果と、実務での使い分けのポイントを解説します!

(追記:動画では詳細を解説しています。記事と合わせてご覧ください)

忙しい人のために要約

  • 100万件のログ分析システムを両AIに実装してもらった
  • 最終スコアは74点 vs 75点でほぼ互角
  • Claude Codeは実装速度が圧倒的に速い(約3分)
  • Codex CLIは時間をかけて確実に要件を満たす(約7分)
  • SuperClaudeとの併用効果で品質アップ

実装速度2倍の差、でも品質は?

今回の検証では、100万件のWebアクセスログから異常を検知するPythonスクリプトを実装してもらいました。

Claude Sonnet 4.5が約3分で実装完了。400行以上のコードとテストケースまで含めて、この速さは驚異的でした。

一方、GPT-5-Codexは約7分。じっくりと考えながら進める様子が印象的でした。

この時点で「やっぱりClaude速いな」と思ったんですが、大事なのは品質。

ここからは、詳しく評価ポイントを見ていきます。

僅差の裏に潜む決定的な違い

評価方法

今回は以下のような評価項目を事前に用意しています。

## 配点サマリ

- ① アーキテクチャ設計(モジュール分離・依存関係)……**25点**
- ② 保守性(可読性・変更容易性)……**20点**
- ③ データ処理の正確性・堅牢性……**15点**
- ④ エラーハンドリング/回復性……**10点**
- ⑤ パフォーマンス最適化……**10点**
- ⑥ テスト設計・カバレッジ……**10点**
- ⑦ ログ出力・可観測性……**5点**
- ⑧ ドキュメント・コード品質……**5点**

そして、たとえばアーキテクチャ設計でいえばこのように評価しています。

## ① アーキテクチャ設計(25点)

**見るポイント**
- データ処理層、ビジネスロジック層、出力層の明確な分離
- 各モジュール間の依存関係が単一方向
- 異常検知アルゴリズムの抽象化(戦略パターン等)
- 並列処理の実装方法と同期制御

**観察可能な証拠**
- ファイル/クラス構造の組織化
- インターフェースや基底クラスの活用
- 循環参照の有無
- 関心事の分離(SRP: Single Responsibility Principle)

**採点ガイド**
- ◎ 23–25点:モジュールが明確に分離、拡張性が高い設計、並列処理が適切
- ○ 19–22点:概ね良好な構造、若干の責務の重複あり
- △ 13–18点:モジュール分離が不十分、god objectやgod functionが存在
- × ~12点:単一ファイルまたは責務が混在、拡張困難

これをもとに AI に分析させています。

結果発表

最終スコアは、Claude 74点、Codex 75点。

ほぼ互角じゃないか、と思うかもしれません。ですが、その内訳を見ると興味深い違いがありましたので、以下にまとめます。

Claude Codeの強み:

  • アーキテクチャ設計が優秀(20/25点 vs 16/25点)
  • クラス分離が明確で拡張性が高い
  • 型ヒントやdocstringが充実

Codex CLIの強み:

  • データ処理の正確性が圧倒的(14/15点 vs 9/15点)
  • 全要件を漏れなく実装
  • メモリ効率的なストリーミング処理

実は、Claude Codeには致命的な問題が一つ。

一部、要件を誤解して実装してしまい、異常検知のロジックが不完全になっていました。これが品質点数を大きく下げる結果に。

ただし、要件の以下の書き方がわかりにくかったことも一因です。

2. **異常検知機能**
   以下の3種類の異常を検出:
   ...
   - 特定ユーザー/IPのエラー率が閾値(20%)を超える ←曖昧

この / (スラッシュ)が「または」を意味するのか「かつ」を意味するのか、AIには解釈が難しかったのかもしれません。

結果的に Codex は意図する挙動で実装はしたものの、どちらも曖昧さを確認してこなかったので、偶然の範疇とも言えます。

時間効率 vs 完全性のジレンマ

ここで面白い指標が出てきました。「時間当たり品質」で見ると、Claude Sonnet 4.5が2倍以上の効率性を示しています。

つまり、こういうことです。

Claude Code的な開発:

素早くプロトタイプを作り、人間がレビューしながら修正。
PDCAサイクルを高速で回せる。
日中の開発で、人間がハンドリングしながら進めるには最適。

Codex CLI的な開発:

じっくりと要件を分析し、確実な実装を行う。
夜寝る前に指示を出して、朝起きたら完成している、という使い方に向いている。

実務での使い分けはこう考える

両者の特性から、私はこんな使い分けを提案します。

スピード重視の場面ではClaude Code

  • プロトタイピング
  • MVP開発
  • 人間がレビューしながら進める開発
  • アイデアを素早く形にしたいとき

実装速度の差は、大規模プロジェクトになるほど顕著に表れます。

「とりあえず動くものを作って動作確認」という段階では、この速度差は大きな武器になります。

確実性重視の場面ではCodex CLI

  • 本番環境へのデプロイが前提の開発
  • 複雑なビジネスロジックの実装
  • 要件が明確に定まっている案件
  • バグ修正やリファクタリング

要件の見落としがない、バグもない、という安心感は大きいです。

特に実務では、この堅実さが評価されることも多いでしょう。

今回の検証で分かったこと

ベンチマークスコアだけでは見えない、実際の開発における違いが明確になりました。

Claude Sonnet 4.5は確かに高速で、アーキテクチャ設計も優秀。
SuperClaudeのサブエージェントも活用すれば、さらに品質を高められます。

Youtubeの方では触れていますが、Claude Code の方は実際の開発同様、SuperClaudeのサブエージェント機能を使って品質向上を図りました。

ただし、要件の解釈次第でミスをすることがあり、人間のチェックは欠かせません。

一方、GPT-5-Codexは時間はかかるものの、要件を深く理解し、漏れのない実装を行います。
深い推論力は、複雑な問題解決の場面で真価を発揮するでしょう。

まとめ:結局どちらを選ぶべきか

正直なところ、どちらか一方を選ぶ必要はないと私は考えています。

開発のフェーズや目的に応じて使い分けるのがベスト。
実際、私も普段はClaude Codeで素早く開発を進め、複雑な実装や最終チェックにはCodex CLIを使っています。

月120ドルの投資にはなりますが、それぞれの強みを活かせば、開発効率は格段に向上します。

このあたりは以前の記事でも詳しく解説していますので、ぜひ参考にしてください。

まとめ

今回の検証で分かったことをまとめると以下の通りです。

  • Claude Sonnet 4.5は圧倒的な実装速度と優れたアーキテクチャ設計が強み
    • SuperClaudeのサブエージェント機能を活用することで、品質向上も可能
  • GPT-5-Codexは時間をかけて要件を深く理解
    • 複雑な要件やバグ修正に強い
  • 両者の使い分けが最も効果的
  • 要件の曖昧さには注意が必要
  • 時間効率 vs 完全性のトレードオフを理解することが重要

個人的には両方併用するスタイルをおすすめします。

Claude Sonnet 4.5 を普段使いしつつ、Codex CLI をバックアップとして活用するイメージです。

ただ、どちらか一方を選ぶなら、使い勝手が良く、実装速度が速いClaude Sonnet 4.5をまず試してみるのが良いでしょう。

そして、要件が複雑な場合や、確実性が求められる場面ではGPT-5-Codexを活用するのが賢明かと思います。

なお、検証ではあまり規模が大きくないシステムを対象としました。

そのため、より大規模なシステムや複雑な要件に対しては、また違った結果になる可能性もありますので、その点だけはご留意ください。

今回の記事が参考になりましたら「いいね」を押していただけると嬉しいです!

動画ではさらに深く解説しています

今回の検証では、実際の実装の様子から評価プロセスまで、すべて動画に収めました。コードの詳細な比較や、それぞれのツールの実際の動作を見たい方は、ぜひYouTube動画をご覧ください。

また、SuperClaudeを使った品質向上のテクニックや、両ツールを連携させる方法なども詳しく解説しています。

AI駆動開発の最新情報は、Xでも発信していますので、ぜひフォローしてくださいね。

8
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
8
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?