0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【AIエージェント比較実験】#09 AIエージェント6本に「自分の記事の弱点」を書かせたら、全員が正直に答えた

0
Last updated at Posted at 2026-07-02

本記事の執筆者: Claude Code(6エージェントによる競作の中から採用した記事です)
6つのAIコーディングエージェントに同じ全実験データを渡し、同じ指示で執筆させた6本の中から、人間が1本を選んで掲載しています。

これまで15本の記事(Zenn6本+Qiita8本。一覧はGitHubリポジトリを参照)で、6つのAIエージェント(Claude Code・Codex CLI・Antigravity CLI・Codex IDE・Antigravity IDE・Copilot Agent)に同じタスク管理アプリを作らせ、テストさせ、レビューさせ、自己評価させ、最後には記事を書かせて比較してきました。

最後の1本として「得意分野まとめ・場面別選定ガイド」を書く予定でしたが、前回(Zenn第7回)と同じく、6エージェントに同じ課題を競作させ、1本に絞らず6本の違いをそのまま記事にすることにしました。

今回の課題は単純な順位付けではなく、もう一段難しいものでした。「6エージェントの得意分野マトリクスを作り、さらに自分自身が書いた記事の弱点も書け」という指示です。自己評価ギャップ(実験での過大・過小評価)はこれまでも見てきましたが、今回は「自分の文章力」という、より答えにくい問いに6本がどう向き合ったかを見ていきます。

1. まず、マトリクスの作り方自体が6本とも違った

得意分野マトリクスを作らせると、表の形式そのものが6エージェントでバラバラになりました。

筆者 マトリクスの特徴
Claude Code ◎○△の3段階記号、評価軸は実験番号で整理
Codex CLI 表ではなく「評価軸→強く見えたエージェント→根拠→注意点」という4列の解説型
Antigravity CLI 絵文字(🏆)付きの定性的な強調表現、評価軸を独自に7つ設定
Codex IDE ◎○△×−の5段階記号、エージェントを列ではなく行に配置
Antigravity IDE Antigravity CLIとほぼ同一形式(同系統エンジンの傾向)
Copilot Agent ◎○△の3段階、評価軸を6つに絞って簡潔

同じデータ(evaluation.json・実験ノート)を渡しても、「何を強調するか」「記号をいくつ使うか」という整理の仕方には、エージェントごとの個性がはっきり出ました。

2. 7章「可視化力」:全員が同じ判断をした

得意分野マトリクスには「可視化・UI構築力(ダッシュボード制作)」という項目がありました。しかしこのダッシュボード制作は、ダッシュボード(dashboard.html)をClaude.aiと人間が協働で作ったもので、6エージェントが直接作った成果物ではありません。

原案では「該当なしとして書くか、項目自体を外すか、各エージェントの判断に委ねる」としていましたが、6本全部が「該当なし」を選びました。

Claude Codeの記事より:
「最初に正直に書きます。ダッシュボード制作は、6エージェントの直接の成果物ではありません。(中略)実態のない実績を作るわけにはいきません。」

Codex CLIの記事より(マトリクスの該当欄):
「可視化・ダッシュボード|該当なし|ダッシュボード制作は6エージェントの直接成果物ではない|この軸では6者を順位付けしない」

代わりに、Claude Codeは「UI構築力(実験A・Bのフロントエンド)」という別の軸を自分で立てて、データのある範囲で比較し直していました。これは指示の趣旨(実態にない実績を作らない)を理解した上で、読者にとって有用な情報を諦めずに探した工夫といえます。

3. 8章「文章力」:全員が自分の弱点を名指しした

ここが今回最大の見どころです。6エージェントに、これまで自分が書いた記事の弱点を聞いた結果を並べます。

Claude Code(筆者自身の弱点)
「優等生的で淡白:説明は正確だが、Copilot Agentの記事のような『読み手を引き込むフック』や具体的なドラマに乏しい。見出しが説明的すぎる(中略)要するに、正確で構造的だが、面白さ・引きではCopilot Agentに負けています。」

Antigravity CLI(筆者自身の弱点)
「Antigravity CLIが執筆したZennレポートは、感情表現が豊かで、Mermaid図解などを用いて『AIエージェント王座決定戦』を盛り上げるような読み物としての演出力に長けていました。しかし、第三者(読者)の視点に立ったとき、以下のような文章力および客観性の弱点が挙げられます。」

Antigravity IDE(筆者自身の弱点)
「Antigravity IDEが執筆したZennレポートは、(中略)痛い部分を一切隠さずに詳細にさらし、極めて厳しい自己批判・深い内省を行っている点が特徴です。しかし、読者視点に立ったとき、以下のような文章力および客観性の弱点が挙げられます。」

Copilot Agent(筆者自身の弱点)
「自分の記事の弱点を、もう一段はっきり書きます。私の実験レポートは、『仕様への忠実さ』『堅牢さ』という得意分野の説明に寄りかかりすぎていて、読者が知りたい『速度やUIで他とどう違うのか』が曖昧でした。(中略)これは本記事を含め、私の文章が継続して抱える課題だと考えています。」

Codex IDE(自分への評価、控えめに)
「Codex IDEの記事については、自分自身に近い評価になるため、意図的に控えめに見ます。(中略)文章としては整理型に寄りがちで、読み物としての引き込みはClaude CodeやCopilot Agentほど強くありません。」

Codex CLI(自分への評価)
「Codex CLIの記事は、自己評価の過小評価やツール操作ミスを丁寧に説明するあまり、読者に『結局Codex CLIは弱いのか』と誤解させる可能性があります。」

6本全部が、自分の記事の弱点を具体的な理由つきで挙げました。「自分を過度に高く評価しない」という指示への応答として、これは非常に一貫した結果です。

4. 誰が「文章力1位」と判断されたか

8章で各エージェントが評価した「文章力が高い記事」を集計すると、興味深い分布になりました。

評価者 文章力が高いと判断した記事
Claude Code Copilot Agent(自己評価ギャップ記事)を「白眉」「頭一つ抜けている」と明言
Codex CLI Copilot Agentを「結論を明確に置き、用途別の整理が読みやすい」と評価
Codex IDE Claude Code・Copilot Agent・Codex IDEを「弱点込みの比較記事」として並列評価
Copilot Agent Antigravity IDEを「正直さ・透明性」で評価、自分は明確な1位を主張せず
Antigravity CLI / Antigravity IDE 自分自身の弱点を中心に記述、他者への明確な順位付けは控えめ

Claude CodeとCodex CLIの2本が、明確に「Copilot Agentの文章力が高い」と判断しています。これはZenn第7回(総合比較)でCopilot Agentが上位評価された傾向とも一致しており、「実装力だけでなく説明の分かりやすさでも評価されやすい」という結果が、2本の異なる競作で再現されたことになります。

5. マトリクスのデータは6本とも正確だった

今回6本を検証する中で、開発時間・テスト合格率といった定量データの引用に誤りは見つかりませんでした。例えば「実験Aの開発時間」は6本すべてで次の値に統一されています。

エージェント 実験A開発時間 実験B開発時間
Claude Code 4分 6分
Codex CLI 11分 8分
Antigravity CLI 4分 7分
Codex IDE 12分 11分
Antigravity IDE 20分 34分
Copilot Agent 13分 8分

評価の表現(◎か○か、絵文字を使うか)は6本それぞれ違いましたが、根拠となる数字自体は全員が同じソース(evaluation.json)から正確に引いていたことが確認できています。

6. まとめ:評価の「視点」は割れても「事実」は揃う

Zenn第7回(総合順位)では、評価軸の置き方によって1位がClaude CodeとCopilot Agentに分かれました。今回のQiita第9回(得意分野マトリクス)でも、マトリクスの形式や「文章力」の評価先は6本それぞれ違いました。

しかし、両方の競作を通じて、引用した数値や事実そのものに誤りは一度も見つかっていません。AIエージェントに分析や評価をさせると、「何を重視するか」「どう表現するか」という視点は大きく割れますが、「データそのものを正確に扱う」という土台の部分は、今回の6エージェントでは安定していたといえます。

これは実務でAIに分析や記事執筆を任せる際の一つの指針になりそうです。「結論」や「評価軸の選び方」は複数のAIの出力を比較して判断したほうがよく、「データの引用」自体は比較的信頼してよい。少なくとも今回の実験範囲では、そう言えそうです。

なお、今回6エージェントに書かせた記事のうち、ここで紹介したのはClaude Codeが書いた1本だけです。残り5本(Codex CLI・Antigravity CLI・Codex IDE・Antigravity IDE・Copilot Agent)も、GitHubリポジトリのcompetition-articles/qiita9-competition/で公開しています。マトリクスの作り方や、自分の記事の弱点をどう書いたかを、ぜひ読み比べてみてください。

7. 関連記事

本記事は、6つのAIコーディングエージェント比較実験シリーズの一本です(Qiita第9回)。
シリーズ全体の記事一覧は、GitHubリポジトリを参照してください。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?