最近、ものすごい勢いで生成AIのコーディング能力が上がっており、ClaudeだけでなくChatGPTやGeminiのコーディング能力もベンチマーク上は3つのモデルが肉薄しており、これまでClaude codeを使っていたけどCodexに乗り換えたという人もSNS上では見かけます。
ベンチマークはさておき、実用性はどうなのかというのを自分で検証したかったので、3つのモデルで同じプロンプトを投げてシンプルなマスタ管理のアプリを作ってもらったので共有します。
検証の仕方
今回検証したかったのは、どのモデルが実務で使うのに一番適しているか?です。今回の実務というのは、Webアプリケーションの開発と定義しています。
そのため、部品管理システムの部品管理マスタの登録変更削除機能とログイン機能を、1から作ってもらいました。
公平性を期すため、元のリポジトリから一回のみ同じプロンプトを投げて、完成した後の結果をそれぞれ比較しました。
環境
環境はGithub Codespace上でGithub copilotを利用しました。
元コード
このリポジトリのコードを利用しました。
このリポジトリにはgithub-instructions.mdのみが存在します。
このファイルには、開発するアプリの技術スタックやログインの仕様など、最低限の情報のみ記述されています。
https://github.com/yo-nagase/ai-dev-instructions-public
投げたプロンプト
元コードのみが存在する状態で、以下のプロンプトを実行しました
ログイン機能と部品マスタを管理をする機能を作って。
開発を円滑に進めるため、開発中はログインできるIDとパスワードはログイン画面に表示する様にして
実施結果
多くのモデルでログインとマスタ管理機能が動くレベルでは作られましたが、UIに大きな差が見られました。
中でも、Claude Opus4.6によって作られたUIが使い勝手も良く、一番良い結果でした。
まとめ
それぞれのモデルによって出力された結果を以下の表にまとめます。
(作られたUIのスクリーンショットは最後に列挙)
| モデル | 機能動作 | UIデザイン | エラー有無 | 備考 |
|---|---|---|---|---|
| Codex 5.3 | ○ | △ | なし | 動作はするが、UIがとても不自然。ボタンの配置がおかしく、そのまま使えるレベルではない。 |
| Codex 5.4 | ○ | ○ | なし | ログイン画面とマスタ管理共にリッチな画面が生成された。すべての機能が問題なく動作する。見た目は綺麗に表示されているが、UIは少し装飾過剰で、編集画面がモーダルではなく画面遷移になっていたりして、UX的に少し使いづらい |
| Gemini Pro 3.0 | △ | △ | あり | マスタ管理機能のみが作られ、ログイン機能が生成されなかった。 |
| Gemini Pro 3.1 | ○ | ○ | なし | 機能的には問題なく動作するが、英語のアプリが生成された。UIのフォントが変わったフォントになった。 |
| Haiku 4.5 | △ | △ | あり | CSSがうまく適用されていない?画面は表示されるが、編集機能などはうまく動作しない。 |
| Claude Sonnet 4.5 | ○ | ○ | ? | 使いやすいUIのアプリが一度で生成された。Opusとあまり遜色がない。削除ボタンが編集ボタンと同じというところなど、Opusと比較すると考慮されていない点がある |
| Claude Opus 4.6 | ◎ | ◎ | なし | エラーもなくUIも綺麗で、総合的に一番良い結果 |
凡例
◎:期待以上の出来 ○:問題なく動作 △:一部不備あり ×:動作せず
成果物(スクリーンショット)
最後に、実際に生成されたアプリのスクリーンショットをそれぞれ共有します。
Codex 5.3

一応機能的には動くが、使い勝手が全く考慮されておらず、必要な項目をとりあえず並べましたという印象。
Codex5.4

ログイン画面、部品マスタ管理画面共にリッチな画面が一度で作られた。しかし、使い勝手が良いかというと微妙・・・機能的には問題なく動作。
Gemini Pro 3.0
Gemini Pro 3.1

ログイン機能、マスタ管理機能の両方が一度で作られた。しかし、UIが英語で変わったフォントが適用されている
Haiku 4.5
Sonnet4.5
Claude(Opus4.6)
まとめ
同じプロンプトで比較をしてみると、ベンチマークでは現れていない情報がわかりました。ベンチマーク上では一部負けていたとしても、実用性で言うとやはりClaude Opusが一歩先に行っていることがわかります。
最近リリースされたGemini3.1, GPT-5.4は改善されてきてはいますが、Opusはまだ超えることができていなさそうです。
ただ、確実にその差は小さくなってきているので、今後どの様に変わっていくか注視していきたいと思います。



