生成AIで専門技術記事はどこまで作れるか：Qiita 記事作成で理想的な AI の組み合わせは何か

Last updated at 2026-06-01Posted at 2026-06-01

Qiita 記事作成の最適解 ― 各AIの回答まとめと最終判定

今回AIを使って作成した Qiita 記事について、Claude に分析してもらいました。
対象本数が少なく、作成が Antigravity に偏りすぎている状態での分析です。
また各AIが日々進化していますので、評価はどんどん変わっていくと思います。

テーマ: Antigravity 2.0 と Codex で記事の傾向に違いはあるか／Qiita 記事作成で理想的な AI の組み合わせは何か
対象記事: rex0220 氏「専門技術記事はどこまで作れるか」検証シリーズ（Antigravity 2.0 作成 4本＋Codex 作成 1本）
回答者: Gemini / ChatGPT / Claude

0. 前提となった設問（プロンプト）

各 AI には、以下の設問が共通して与えられた。

下記記事で、Antigravity 2.0 が作成したものと、Codex が作成したもので傾向に違いがあるか？

・Antigravity 2.0 作成、他 AI レビュー

Google Antigravity 2.0で専門技術記事はどこまで作れるか：宇宙電子機器編

Google Antigravity 2.0で専門技術記事はどこまで作れるか：超電導編

Google Antigravity 2.0で専門技術記事はどこまで作れるか：光ファイバー通信編

Google Antigravity 2.0で専門技術記事はどこまで作れるか：時計編

・Codex 作成、他 AI レビュー

生成AIで専門技術記事はどこまで作れるか：極限計測・単位系編

Qiita 記事作成の場合どのような組み合わせが理想的か？

つまり問われたのは次の2点。

傾向差の有無: 初稿を Antigravity 2.0 が書いた記事と、Codex が書いた記事で、生成傾向に違いがあるか。
理想的な組み合わせ: Qiita の専門技術記事を作るうえで、どの AI をどの工程に当てるのが理想か。

なお比較対象は Antigravity 2.0 系 4本に対し Codex 系 1本と非対称であり、各記事は単独モデルの出力ではなく複数 AI＋人間によるパイプライン制作物である点が、回答全体の前提となっている。

1. 各 AI の回答の要約

3者は「傾向差」と「理想的な組み合わせ」の両方で、ほぼ同じ結論に収束した。

Gemini

軸: マクロ vs ミクロ
Antigravity 2.0: 情報統合力・大局的なストーリー構成に強い「プロデューサー／メインライター型」。網羅性と体系化、図表・比喩の自動生成が得意。
Codex: 数値・数式の厳密なファクトチェックに特化した「テクニカル校閲・データ検証型」。仕様・コードベースの現実主義。
Antigravity の弱点: 完璧主義・理想論ゆえに現実のグレーゾーンを無視・断定しやすい（例: 電波時計の補正を「完全に校正」と言い切る、NTP と Google の Leap Smearing を混同）。
理想形: 設計(Claude) → 執筆(Antigravity) → 校閲(Codex) → 最終調整(人間) の4層構造。
キャッチ: 「読みやすさの Claude」で引き込み、「圧倒的情報量の Antigravity」で殴り、「厳密な Codex」で防御を固める。

ChatGPT

軸: 百科事典型 vs 概念貫通型
Antigravity 2.0: 「百科事典型・総合ガイド型」。テーマを技術領域の地図として広く階層的に展開。
Codex: 「論点設計型・比喩制御型・検証ログ型」。1本の中心概念（例:「単位＝現実世界の型」）で全章を貫く。
慎重さ: 唯一、サンプル数の偏り（Antigravity 4本 vs Codex 1本）を明示し、「断定ではなく現時点で見える傾向」と留保。
弱点の差: Antigravity は「もっともらしい仕様混同」、Codex は「比喩が強すぎて現実を上書きする危険」。
理想形: 7工程ワークフロー（テーマ設計→大構成→技術整理→ファクトチェック観点抽出→読者目線レビュー→最終編集→人間確認）。自分（ChatGPT）を「公開前の編集長」として最終レイヤーに配置。
キャッチ: Antigravity＝広げる AI／Codex＝締める AI／Claude＝読ませる AI／ChatGPT＝公開前の編集長。

Claude

軸: プレゼン力 vs 根拠の堅実さ
読んだ範囲を開示: 4本中2本（宇宙電子機器・時計）＋単位系編を精読した上での判断、と正直に明示。
重要な前提: 両者は「純粋なモデル出力」ではなく、記事内に明記された制作パイプライン上の役割が違う点に注意。
Antigravity 2.0: 網羅・百科事典型。mermaid 図・アスキーアート多用、視覚的密度が高い。出典が希薄で言い切りが強い。
Codex: 一貫メタファー型／論証型。TypeScript のコード例で概念を提示、一次資料リンクを多数明示、比喩の限界を自分で注記。
独自の貢献①: 初稿担当と検証担当は必ず別モデルにする（自己採点では誤りに気づけない）。
独自の貢献②: 記事の種類で最適解は変わる。特に kintone 実装記事は外部出典よりコードの正確さ・再現性が品質を決め、人間の実機検証が主軸になる。

2. 一致点と相違点

	傾向の認識	推奨パイプライン	独自の貢献
Gemini	マクロ統合 vs ミクロ精密	Claude→Antigravity→Codex→人間	最も整理された4層モデル
ChatGPT	百科事典型 vs 概念貫通型	7工程（自分を編集長に）	サンプル偏りの注意喚起
Claude	プレゼン力 vs 根拠の堅実さ	Claude→Antigravity→Codex→Claude→人間	生成/検証の分離原則・記事種別依存

一致点

核となる軸は完全一致 ― Antigravity＝広さ・構造・見せ方／Codex＝深さ・根拠・出典。
単独モデルではなく 役割分担 が理想。
人間の最終判断は省略不可。

この強い収束そのものが、結論の信頼性を裏付けている。

相違点

主に 慎重さの度合い。Gemini は傾向を確立した事実として扱い、ChatGPT と Claude は「Codex は1本だけなので暫定」と留保を付ける。ここは ChatGPT / Claude が正しい ― 今見えているのはモデルの素の性能差というより、各記事の パイプライン上の役割の差 であり、純粋なモデル比較ではない。

3. 最終判定：Qiita 記事作成の最適解

A. 専門解説記事（検証シリーズのような読み物）の場合

3者の総意通り、以下が最適解。

設計・章立て → Claude／Gemini ｜初稿・図解 → Antigravity 2.0 ｜事実検証・出典付け → Codex ｜読みやすさレビュー → Claude ｜最終判断 → 人間

最も譲れないのが、Claude が指摘した 「生成系（Antigravity）と検証系（Codex）を別モデルにする」 原則。Antigravity の最大リスク（出典希薄・過剰な断定・標準仕様と個別実装の混同）は、同じモデルでは潰せず、独立した検証担当でしか塞げない。

リソースを絞る場合の軽量版:

2モデル構成: Antigravity で初稿＋図 → Codex で事実検証 → 人間。これだけで Antigravity の弱点はかなり消える。
1モデルなら Codex 寄り: 網羅性は落ちるが、出典と検証の堅実さで「後で恥をかかない」記事になる。

B. kintone 実装・ハウツー記事の場合（← 本業向け）

検証シリーズは外部知識中心の解説記事なので出典検証が要だったが、kintone 実装記事では品質を決めるのは外部出典ではなく コードの正確さと再現性 であり、ドメインの権威は書き手自身。したがって最適解は変わる。

初稿・コード生成は Claude か Codex（mermaid 図の華やかさより API の正確さが効く工程）。
Antigravity の出番は「全体構成の叩き台」や「図解」に限定。
検証は モデルより実機 ― 実際に動かす＋人間が品質の主軸。

総合結論

最適解は1つではなく、記事の種別で切り替わる。

検証系・外部知識中心の専門記事 → 3〜4モデルのフル布陣（生成と検証を分離）。
kintone のような実装記事 → 生成系を軽くし、人間の実機検証を中心に据える。

この使い分けを前提にすることが、本当の意味での「Qiita 記事作成の最適解」である。

推奨できない組合せ

記事作成という文脈で、3者の回答から導ける「あまり推奨できない組み合わせ」を、避けるべき理由とともに挙げます。根底にある原則は 「同じ強みのモデルを重ねない」「生成と検証を同一モデルにしない」 の2つです。

1. Antigravity 単独（初稿も検証も Antigravity）
最も避けたい構成です。Antigravity の弱点（出典の希薄さ・過剰な断定・標準仕様と個別実装の混同）は、同じモデルでは自己採点で気づけません。網羅性と勢いはあるが、誤りを内包したまま完成度高く見えてしまうのが一番危険です。

2. Antigravity 初稿 → Claude / Gemini だけでレビュー（Codex なし）
Claude・Gemini は「読みやすさ・構成」のレビュアーであって、ファクトチェッカーではありません。この組み合わせは文章が滑らかになるほど、中身の事実誤りや根拠不足が温存され、「読みやすいが間違っている記事」になりやすい。検証層に Codex 系（根拠・出典の担当）が入っていないのが欠陥です。

3. 生成系を2つ重ねる（Antigravity ＋ Claude/Gemini を両方とも初稿に）
どちらも「広げる・展開する」方向のモデルなので、文量は増えても厳密さは足されません。強みが重複し、弱点（裏取りの甘さ）も共有してしまう、コスパの悪い組み合わせです。

4. Codex 単独で網羅的な解説記事を書く
逆方向の失敗です。Codex は一貫した論証・比喩制御に強い反面、広い技術領域を俯瞰する総合ガイド型の記事では密度が高すぎ・範囲が狭くなりがち。ChatGPT が指摘した「比喩が強すぎて現実を上書きする」リスクも、検証役なしの単独では止められません。（※実装記事なら Codex 単独でも可、という点は別です）

5. 検証工程を人間だけに丸投げ（AI 検証層を省く）
生成系で一気に書いて、あとは人間が目視、という構成。Antigravity 初稿の場合、人間が一次資料を一つずつ当たる負荷が大きく、見落としが出ます。Codex 系の機械的な裏取りを挟まないと、検証が現実的に回りません。

kintone 実装記事に限った話としては、Antigravity を主軸（初稿担当）にするのが非推奨です。mermaid 図の華やかさより API の正確さ・再現性が効く領域なので、Antigravity の長所が活きず短所（仕様の混同）が出やすい。ここは初稿を Claude / Codex に任せ、Antigravity は構成の叩き台や図解に限定するのが無難です。

いずれも前置きの通り、対象本数が少なく Antigravity 偏重のサンプルから見えた傾向なので、断定ではなく現時点での目安として捉えてください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up