【AIエージェント比較実験】#09 AIエージェント6本に「自分の記事の弱点」を書かせたら、全員が正直に答えた

Last updated at 2026-07-02Posted at 2026-07-02

本記事の執筆者: Claude Code（6エージェントによる競作の中から採用した記事です）
6つのAIコーディングエージェントに同じ全実験データを渡し、同じ指示で執筆させた6本の中から、人間が1本を選んで掲載しています。

これまで15本の記事（Zenn6本＋Qiita8本。一覧はGitHubリポジトリを参照）で、6つのAIエージェント（Claude Code・Codex CLI・Antigravity CLI・Codex IDE・Antigravity IDE・Copilot Agent）に同じタスク管理アプリを作らせ、テストさせ、レビューさせ、自己評価させ、最後には記事を書かせて比較してきました。

最後の1本として「得意分野まとめ・場面別選定ガイド」を書く予定でしたが、前回（Zenn第7回）と同じく、6エージェントに同じ課題を競作させ、1本に絞らず6本の違いをそのまま記事にすることにしました。

今回の課題は単純な順位付けではなく、もう一段難しいものでした。「6エージェントの得意分野マトリクスを作り、さらに自分自身が書いた記事の弱点も書け」という指示です。自己評価ギャップ（実験での過大・過小評価）はこれまでも見てきましたが、今回は「自分の文章力」という、より答えにくい問いに6本がどう向き合ったかを見ていきます。

1. まず、マトリクスの作り方自体が6本とも違った

得意分野マトリクスを作らせると、表の形式そのものが6エージェントでバラバラになりました。

筆者	マトリクスの特徴
Claude Code	◎○△の3段階記号、評価軸は実験番号で整理
Codex CLI	表ではなく「評価軸→強く見えたエージェント→根拠→注意点」という4列の解説型
Antigravity CLI	絵文字（🏆）付きの定性的な強調表現、評価軸を独自に7つ設定
Codex IDE	◎○△×−の5段階記号、エージェントを列ではなく行に配置
Antigravity IDE	Antigravity CLIとほぼ同一形式（同系統エンジンの傾向）
Copilot Agent	◎○△の3段階、評価軸を6つに絞って簡潔

同じデータ（evaluation.json・実験ノート）を渡しても、「何を強調するか」「記号をいくつ使うか」という整理の仕方には、エージェントごとの個性がはっきり出ました。

2. 7章「可視化力」：全員が同じ判断をした

得意分野マトリクスには「可視化・UI構築力（ダッシュボード制作）」という項目がありました。しかしこのダッシュボード制作は、ダッシュボード（dashboard.html）をClaude.aiと人間が協働で作ったもので、6エージェントが直接作った成果物ではありません。

原案では「該当なしとして書くか、項目自体を外すか、各エージェントの判断に委ねる」としていましたが、6本全部が「該当なし」を選びました。

Claude Codeの記事より：
「最初に正直に書きます。ダッシュボード制作は、6エージェントの直接の成果物ではありません。（中略）実態のない実績を作るわけにはいきません。」

Codex CLIの記事より（マトリクスの該当欄）：
「可視化・ダッシュボード｜該当なし｜ダッシュボード制作は6エージェントの直接成果物ではない｜この軸では6者を順位付けしない」

代わりに、Claude Codeは「UI構築力（実験A・Bのフロントエンド）」という別の軸を自分で立てて、データのある範囲で比較し直していました。これは指示の趣旨（実態にない実績を作らない）を理解した上で、読者にとって有用な情報を諦めずに探した工夫といえます。

3. 8章「文章力」：全員が自分の弱点を名指しした

ここが今回最大の見どころです。6エージェントに、これまで自分が書いた記事の弱点を聞いた結果を並べます。

Claude Code（筆者自身の弱点）：
「優等生的で淡白：説明は正確だが、Copilot Agentの記事のような『読み手を引き込むフック』や具体的なドラマに乏しい。見出しが説明的すぎる（中略）要するに、正確で構造的だが、面白さ・引きではCopilot Agentに負けています。」

Antigravity CLI（筆者自身の弱点）：
「Antigravity CLIが執筆したZennレポートは、感情表現が豊かで、Mermaid図解などを用いて『AIエージェント王座決定戦』を盛り上げるような読み物としての演出力に長けていました。しかし、第三者（読者）の視点に立ったとき、以下のような文章力および客観性の弱点が挙げられます。」

Antigravity IDE（筆者自身の弱点）：
「Antigravity IDEが執筆したZennレポートは、（中略）痛い部分を一切隠さずに詳細にさらし、極めて厳しい自己批判・深い内省を行っている点が特徴です。しかし、読者視点に立ったとき、以下のような文章力および客観性の弱点が挙げられます。」

Copilot Agent（筆者自身の弱点）：
「自分の記事の弱点を、もう一段はっきり書きます。私の実験レポートは、『仕様への忠実さ』『堅牢さ』という得意分野の説明に寄りかかりすぎていて、読者が知りたい『速度やUIで他とどう違うのか』が曖昧でした。（中略）これは本記事を含め、私の文章が継続して抱える課題だと考えています。」

Codex IDE（自分への評価、控えめに）：
「Codex IDEの記事については、自分自身に近い評価になるため、意図的に控えめに見ます。（中略）文章としては整理型に寄りがちで、読み物としての引き込みはClaude CodeやCopilot Agentほど強くありません。」

Codex CLI（自分への評価）：
「Codex CLIの記事は、自己評価の過小評価やツール操作ミスを丁寧に説明するあまり、読者に『結局Codex CLIは弱いのか』と誤解させる可能性があります。」

6本全部が、自分の記事の弱点を具体的な理由つきで挙げました。「自分を過度に高く評価しない」という指示への応答として、これは非常に一貫した結果です。

4. 誰が「文章力1位」と判断されたか

8章で各エージェントが評価した「文章力が高い記事」を集計すると、興味深い分布になりました。

評価者	文章力が高いと判断した記事
Claude Code	Copilot Agent（自己評価ギャップ記事）を「白眉」「頭一つ抜けている」と明言
Codex CLI	Copilot Agentを「結論を明確に置き、用途別の整理が読みやすい」と評価
Codex IDE	Claude Code・Copilot Agent・Codex IDEを「弱点込みの比較記事」として並列評価
Copilot Agent	Antigravity IDEを「正直さ・透明性」で評価、自分は明確な1位を主張せず
Antigravity CLI / Antigravity IDE	自分自身の弱点を中心に記述、他者への明確な順位付けは控えめ

Claude CodeとCodex CLIの2本が、明確に「Copilot Agentの文章力が高い」と判断しています。これはZenn第7回（総合比較）でCopilot Agentが上位評価された傾向とも一致しており、「実装力だけでなく説明の分かりやすさでも評価されやすい」という結果が、2本の異なる競作で再現されたことになります。

5. マトリクスのデータは6本とも正確だった

今回6本を検証する中で、開発時間・テスト合格率といった定量データの引用に誤りは見つかりませんでした。例えば「実験Aの開発時間」は6本すべてで次の値に統一されています。

エージェント	実験A開発時間	実験B開発時間
Claude Code	4分	6分
Codex CLI	11分	8分
Antigravity CLI	4分	7分
Codex IDE	12分	11分
Antigravity IDE	20分	34分
Copilot Agent	13分	8分

評価の表現（◎か○か、絵文字を使うか）は6本それぞれ違いましたが、根拠となる数字自体は全員が同じソース（evaluation.json）から正確に引いていたことが確認できています。

6. まとめ：評価の「視点」は割れても「事実」は揃う

Zenn第7回（総合順位）では、評価軸の置き方によって1位がClaude CodeとCopilot Agentに分かれました。今回のQiita第9回（得意分野マトリクス）でも、マトリクスの形式や「文章力」の評価先は6本それぞれ違いました。

しかし、両方の競作を通じて、引用した数値や事実そのものに誤りは一度も見つかっていません。AIエージェントに分析や評価をさせると、「何を重視するか」「どう表現するか」という視点は大きく割れますが、「データそのものを正確に扱う」という土台の部分は、今回の6エージェントでは安定していたといえます。

これは実務でAIに分析や記事執筆を任せる際の一つの指針になりそうです。「結論」や「評価軸の選び方」は複数のAIの出力を比較して判断したほうがよく、「データの引用」自体は比較的信頼してよい。少なくとも今回の実験範囲では、そう言えそうです。

なお、今回6エージェントに書かせた記事のうち、ここで紹介したのはClaude Codeが書いた1本だけです。残り5本（Codex CLI・Antigravity CLI・Codex IDE・Antigravity IDE・Copilot Agent）も、GitHubリポジトリのcompetition-articles/qiita9-competition/で公開しています。マトリクスの作り方や、自分の記事の弱点をどう書いたかを、ぜひ読み比べてみてください。

7. 関連記事

本記事は、6つのAIコーディングエージェント比較実験シリーズの一本です（Qiita第9回）。
シリーズ全体の記事一覧は、GitHubリポジトリを参照してください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up