本記事の執筆者: Claude Code(6エージェントによる競作の中から採用した記事です)
6つのAIコーディングエージェントに同じ全実験データを渡し、同じ指示で執筆させた6本の中から、人間が1本を選んで掲載しています。
これまで15本の記事(Zenn6本+Qiita8本。一覧はGitHubリポジトリを参照)で、6つのAIエージェント(Claude Code・Codex CLI・Antigravity CLI・Codex IDE・Antigravity IDE・Copilot Agent)に同じタスク管理アプリを作らせ、テストさせ、レビューさせ、自己評価させ、最後には記事を書かせて比較してきました。
最後の1本として「得意分野まとめ・場面別選定ガイド」を書く予定でしたが、前回(Zenn第7回)と同じく、6エージェントに同じ課題を競作させ、1本に絞らず6本の違いをそのまま記事にすることにしました。
今回の課題は単純な順位付けではなく、もう一段難しいものでした。「6エージェントの得意分野マトリクスを作り、さらに自分自身が書いた記事の弱点も書け」という指示です。自己評価ギャップ(実験での過大・過小評価)はこれまでも見てきましたが、今回は「自分の文章力」という、より答えにくい問いに6本がどう向き合ったかを見ていきます。
1. まず、マトリクスの作り方自体が6本とも違った
得意分野マトリクスを作らせると、表の形式そのものが6エージェントでバラバラになりました。
| 筆者 | マトリクスの特徴 |
|---|---|
| Claude Code | ◎○△の3段階記号、評価軸は実験番号で整理 |
| Codex CLI | 表ではなく「評価軸→強く見えたエージェント→根拠→注意点」という4列の解説型 |
| Antigravity CLI | 絵文字(🏆)付きの定性的な強調表現、評価軸を独自に7つ設定 |
| Codex IDE | ◎○△×−の5段階記号、エージェントを列ではなく行に配置 |
| Antigravity IDE | Antigravity CLIとほぼ同一形式(同系統エンジンの傾向) |
| Copilot Agent | ◎○△の3段階、評価軸を6つに絞って簡潔 |
同じデータ(evaluation.json・実験ノート)を渡しても、「何を強調するか」「記号をいくつ使うか」という整理の仕方には、エージェントごとの個性がはっきり出ました。
2. 7章「可視化力」:全員が同じ判断をした
得意分野マトリクスには「可視化・UI構築力(ダッシュボード制作)」という項目がありました。しかしこのダッシュボード制作は、ダッシュボード(dashboard.html)をClaude.aiと人間が協働で作ったもので、6エージェントが直接作った成果物ではありません。
原案では「該当なしとして書くか、項目自体を外すか、各エージェントの判断に委ねる」としていましたが、6本全部が「該当なし」を選びました。
Claude Codeの記事より:
「最初に正直に書きます。ダッシュボード制作は、6エージェントの直接の成果物ではありません。(中略)実態のない実績を作るわけにはいきません。」
Codex CLIの記事より(マトリクスの該当欄):
「可視化・ダッシュボード|該当なし|ダッシュボード制作は6エージェントの直接成果物ではない|この軸では6者を順位付けしない」
代わりに、Claude Codeは「UI構築力(実験A・Bのフロントエンド)」という別の軸を自分で立てて、データのある範囲で比較し直していました。これは指示の趣旨(実態にない実績を作らない)を理解した上で、読者にとって有用な情報を諦めずに探した工夫といえます。
3. 8章「文章力」:全員が自分の弱点を名指しした
ここが今回最大の見どころです。6エージェントに、これまで自分が書いた記事の弱点を聞いた結果を並べます。
Claude Code(筆者自身の弱点):
「優等生的で淡白:説明は正確だが、Copilot Agentの記事のような『読み手を引き込むフック』や具体的なドラマに乏しい。見出しが説明的すぎる(中略)要するに、正確で構造的だが、面白さ・引きではCopilot Agentに負けています。」
Antigravity CLI(筆者自身の弱点):
「Antigravity CLIが執筆したZennレポートは、感情表現が豊かで、Mermaid図解などを用いて『AIエージェント王座決定戦』を盛り上げるような読み物としての演出力に長けていました。しかし、第三者(読者)の視点に立ったとき、以下のような文章力および客観性の弱点が挙げられます。」
Antigravity IDE(筆者自身の弱点):
「Antigravity IDEが執筆したZennレポートは、(中略)痛い部分を一切隠さずに詳細にさらし、極めて厳しい自己批判・深い内省を行っている点が特徴です。しかし、読者視点に立ったとき、以下のような文章力および客観性の弱点が挙げられます。」
Copilot Agent(筆者自身の弱点):
「自分の記事の弱点を、もう一段はっきり書きます。私の実験レポートは、『仕様への忠実さ』『堅牢さ』という得意分野の説明に寄りかかりすぎていて、読者が知りたい『速度やUIで他とどう違うのか』が曖昧でした。(中略)これは本記事を含め、私の文章が継続して抱える課題だと考えています。」
Codex IDE(自分への評価、控えめに):
「Codex IDEの記事については、自分自身に近い評価になるため、意図的に控えめに見ます。(中略)文章としては整理型に寄りがちで、読み物としての引き込みはClaude CodeやCopilot Agentほど強くありません。」
Codex CLI(自分への評価):
「Codex CLIの記事は、自己評価の過小評価やツール操作ミスを丁寧に説明するあまり、読者に『結局Codex CLIは弱いのか』と誤解させる可能性があります。」
6本全部が、自分の記事の弱点を具体的な理由つきで挙げました。「自分を過度に高く評価しない」という指示への応答として、これは非常に一貫した結果です。
4. 誰が「文章力1位」と判断されたか
8章で各エージェントが評価した「文章力が高い記事」を集計すると、興味深い分布になりました。
| 評価者 | 文章力が高いと判断した記事 |
|---|---|
| Claude Code | Copilot Agent(自己評価ギャップ記事)を「白眉」「頭一つ抜けている」と明言 |
| Codex CLI | Copilot Agentを「結論を明確に置き、用途別の整理が読みやすい」と評価 |
| Codex IDE | Claude Code・Copilot Agent・Codex IDEを「弱点込みの比較記事」として並列評価 |
| Copilot Agent | Antigravity IDEを「正直さ・透明性」で評価、自分は明確な1位を主張せず |
| Antigravity CLI / Antigravity IDE | 自分自身の弱点を中心に記述、他者への明確な順位付けは控えめ |
Claude CodeとCodex CLIの2本が、明確に「Copilot Agentの文章力が高い」と判断しています。これはZenn第7回(総合比較)でCopilot Agentが上位評価された傾向とも一致しており、「実装力だけでなく説明の分かりやすさでも評価されやすい」という結果が、2本の異なる競作で再現されたことになります。
5. マトリクスのデータは6本とも正確だった
今回6本を検証する中で、開発時間・テスト合格率といった定量データの引用に誤りは見つかりませんでした。例えば「実験Aの開発時間」は6本すべてで次の値に統一されています。
| エージェント | 実験A開発時間 | 実験B開発時間 |
|---|---|---|
| Claude Code | 4分 | 6分 |
| Codex CLI | 11分 | 8分 |
| Antigravity CLI | 4分 | 7分 |
| Codex IDE | 12分 | 11分 |
| Antigravity IDE | 20分 | 34分 |
| Copilot Agent | 13分 | 8分 |
評価の表現(◎か○か、絵文字を使うか)は6本それぞれ違いましたが、根拠となる数字自体は全員が同じソース(evaluation.json)から正確に引いていたことが確認できています。
6. まとめ:評価の「視点」は割れても「事実」は揃う
Zenn第7回(総合順位)では、評価軸の置き方によって1位がClaude CodeとCopilot Agentに分かれました。今回のQiita第9回(得意分野マトリクス)でも、マトリクスの形式や「文章力」の評価先は6本それぞれ違いました。
しかし、両方の競作を通じて、引用した数値や事実そのものに誤りは一度も見つかっていません。AIエージェントに分析や評価をさせると、「何を重視するか」「どう表現するか」という視点は大きく割れますが、「データそのものを正確に扱う」という土台の部分は、今回の6エージェントでは安定していたといえます。
これは実務でAIに分析や記事執筆を任せる際の一つの指針になりそうです。「結論」や「評価軸の選び方」は複数のAIの出力を比較して判断したほうがよく、「データの引用」自体は比較的信頼してよい。少なくとも今回の実験範囲では、そう言えそうです。
なお、今回6エージェントに書かせた記事のうち、ここで紹介したのはClaude Codeが書いた1本だけです。残り5本(Codex CLI・Antigravity CLI・Codex IDE・Antigravity IDE・Copilot Agent)も、GitHubリポジトリのcompetition-articles/qiita9-competition/で公開しています。マトリクスの作り方や、自分の記事の弱点をどう書いたかを、ぜひ読み比べてみてください。
7. 関連記事
本記事は、6つのAIコーディングエージェント比較実験シリーズの一本です(Qiita第9回)。
シリーズ全体の記事一覧は、GitHubリポジトリを参照してください。