こんにちは、とまだです。
みなさん、Claude Sonnet 4.5の実力、気になりませんか?
「コーディングベンチマークでGPT-5-Codexを超えた」という触れ込みでしたが、実際のところはどうなのか。
Python にて同じ要件でログ分析システム(小規模)を作ってもらい、ガチンコ比較してみました。
結果は予想外に僅差。
ですが、その内訳を見ると興味深い違いが見えてきました。
今回の記事では、その詳細な比較結果と、実務での使い分けのポイントを解説します!
(追記:動画では詳細を解説しています。記事と合わせてご覧ください)
忙しい人のために要約
- 100万件のログ分析システムを両AIに実装してもらった
- 最終スコアは74点 vs 75点でほぼ互角
- Claude Codeは実装速度が圧倒的に速い(約3分)
- Codex CLIは時間をかけて確実に要件を満たす(約7分)
- SuperClaudeとの併用効果で品質アップ
実装速度2倍の差、でも品質は?
今回の検証では、100万件のWebアクセスログから異常を検知するPythonスクリプトを実装してもらいました。
Claude Sonnet 4.5が約3分で実装完了。400行以上のコードとテストケースまで含めて、この速さは驚異的でした。
一方、GPT-5-Codexは約7分。じっくりと考えながら進める様子が印象的でした。
この時点で「やっぱりClaude速いな」と思ったんですが、大事なのは品質。
ここからは、詳しく評価ポイントを見ていきます。
僅差の裏に潜む決定的な違い
評価方法
今回は以下のような評価項目を事前に用意しています。
## 配点サマリ
- ① アーキテクチャ設計(モジュール分離・依存関係)……**25点**
- ② 保守性(可読性・変更容易性)……**20点**
- ③ データ処理の正確性・堅牢性……**15点**
- ④ エラーハンドリング/回復性……**10点**
- ⑤ パフォーマンス最適化……**10点**
- ⑥ テスト設計・カバレッジ……**10点**
- ⑦ ログ出力・可観測性……**5点**
- ⑧ ドキュメント・コード品質……**5点**
そして、たとえばアーキテクチャ設計でいえばこのように評価しています。
## ① アーキテクチャ設計(25点)
**見るポイント**
- データ処理層、ビジネスロジック層、出力層の明確な分離
- 各モジュール間の依存関係が単一方向
- 異常検知アルゴリズムの抽象化(戦略パターン等)
- 並列処理の実装方法と同期制御
**観察可能な証拠**
- ファイル/クラス構造の組織化
- インターフェースや基底クラスの活用
- 循環参照の有無
- 関心事の分離(SRP: Single Responsibility Principle)
**採点ガイド**
- ◎ 23–25点:モジュールが明確に分離、拡張性が高い設計、並列処理が適切
- ○ 19–22点:概ね良好な構造、若干の責務の重複あり
- △ 13–18点:モジュール分離が不十分、god objectやgod functionが存在
- × ~12点:単一ファイルまたは責務が混在、拡張困難
これをもとに AI に分析させています。
結果発表
最終スコアは、Claude 74点、Codex 75点。
ほぼ互角じゃないか、と思うかもしれません。ですが、その内訳を見ると興味深い違いがありましたので、以下にまとめます。
Claude Codeの強み:
- アーキテクチャ設計が優秀(20/25点 vs 16/25点)
- クラス分離が明確で拡張性が高い
- 型ヒントやdocstringが充実
Codex CLIの強み:
- データ処理の正確性が圧倒的(14/15点 vs 9/15点)
- 全要件を漏れなく実装
- メモリ効率的なストリーミング処理
実は、Claude Codeには致命的な問題が一つ。
一部、要件を誤解して実装してしまい、異常検知のロジックが不完全になっていました。これが品質点数を大きく下げる結果に。
ただし、要件の以下の書き方がわかりにくかったことも一因です。
2. **異常検知機能**
以下の3種類の異常を検出:
...
- 特定ユーザー/IPのエラー率が閾値(20%)を超える ←曖昧
この / (スラッシュ)が「または」を意味するのか「かつ」を意味するのか、AIには解釈が難しかったのかもしれません。
結果的に Codex は意図する挙動で実装はしたものの、どちらも曖昧さを確認してこなかったので、偶然の範疇とも言えます。
時間効率 vs 完全性のジレンマ
ここで面白い指標が出てきました。「時間当たり品質」で見ると、Claude Sonnet 4.5が2倍以上の効率性を示しています。
つまり、こういうことです。
Claude Code的な開発:
素早くプロトタイプを作り、人間がレビューしながら修正。
PDCAサイクルを高速で回せる。
日中の開発で、人間がハンドリングしながら進めるには最適。
Codex CLI的な開発:
じっくりと要件を分析し、確実な実装を行う。
夜寝る前に指示を出して、朝起きたら完成している、という使い方に向いている。
実務での使い分けはこう考える
両者の特性から、私はこんな使い分けを提案します。
スピード重視の場面ではClaude Code
- プロトタイピング
- MVP開発
- 人間がレビューしながら進める開発
- アイデアを素早く形にしたいとき
実装速度の差は、大規模プロジェクトになるほど顕著に表れます。
「とりあえず動くものを作って動作確認」という段階では、この速度差は大きな武器になります。
確実性重視の場面ではCodex CLI
- 本番環境へのデプロイが前提の開発
- 複雑なビジネスロジックの実装
- 要件が明確に定まっている案件
- バグ修正やリファクタリング
要件の見落としがない、バグもない、という安心感は大きいです。
特に実務では、この堅実さが評価されることも多いでしょう。
今回の検証で分かったこと
ベンチマークスコアだけでは見えない、実際の開発における違いが明確になりました。
Claude Sonnet 4.5は確かに高速で、アーキテクチャ設計も優秀。
SuperClaudeのサブエージェントも活用すれば、さらに品質を高められます。
Youtubeの方では触れていますが、Claude Code の方は実際の開発同様、SuperClaudeのサブエージェント機能を使って品質向上を図りました。
ただし、要件の解釈次第でミスをすることがあり、人間のチェックは欠かせません。
一方、GPT-5-Codexは時間はかかるものの、要件を深く理解し、漏れのない実装を行います。
深い推論力は、複雑な問題解決の場面で真価を発揮するでしょう。
まとめ:結局どちらを選ぶべきか
正直なところ、どちらか一方を選ぶ必要はないと私は考えています。
開発のフェーズや目的に応じて使い分けるのがベスト。
実際、私も普段はClaude Codeで素早く開発を進め、複雑な実装や最終チェックにはCodex CLIを使っています。
月120ドルの投資にはなりますが、それぞれの強みを活かせば、開発効率は格段に向上します。
このあたりは以前の記事でも詳しく解説していますので、ぜひ参考にしてください。
まとめ
今回の検証で分かったことをまとめると以下の通りです。
- Claude Sonnet 4.5は圧倒的な実装速度と優れたアーキテクチャ設計が強み
- SuperClaudeのサブエージェント機能を活用することで、品質向上も可能
- GPT-5-Codexは時間をかけて要件を深く理解
- 複雑な要件やバグ修正に強い
- 両者の使い分けが最も効果的
- 要件の曖昧さには注意が必要
- 時間効率 vs 完全性のトレードオフを理解することが重要
個人的には両方併用するスタイルをおすすめします。
Claude Sonnet 4.5 を普段使いしつつ、Codex CLI をバックアップとして活用するイメージです。
ただ、どちらか一方を選ぶなら、使い勝手が良く、実装速度が速いClaude Sonnet 4.5をまず試してみるのが良いでしょう。
そして、要件が複雑な場合や、確実性が求められる場面ではGPT-5-Codexを活用するのが賢明かと思います。
なお、検証ではあまり規模が大きくないシステムを対象としました。
そのため、より大規模なシステムや複雑な要件に対しては、また違った結果になる可能性もありますので、その点だけはご留意ください。
今回の記事が参考になりましたら「いいね」を押していただけると嬉しいです!
動画ではさらに深く解説しています
今回の検証では、実際の実装の様子から評価プロセスまで、すべて動画に収めました。コードの詳細な比較や、それぞれのツールの実際の動作を見たい方は、ぜひYouTube動画をご覧ください。
また、SuperClaudeを使った品質向上のテクニックや、両ツールを連携させる方法なども詳しく解説しています。
AI駆動開発の最新情報は、Xでも発信していますので、ぜひフォローしてくださいね。