はじめに
Claude Code、Codex CLI、Gemini CLI の比較記事は、ここ半年で一気に増えました。
多くは「どれが最強か」を問う記事です。読むと参考になる一方、結局どれか 1 つを選ばされる構図になりがちで、実務の体感とは少しずれます。私の手元では、3 ツールは互いに"置き換え"ではなく"補完"の関係で並んでいます。
本記事では「どれが最強か」ではなく、「3 ツールを併用する前提で、どう役割分担させるか」を設計する視点でまとめます。具体的には、以下を扱います。
- 各ツールの強みを中立的に整理
- タスク種別 × 速度 × コスト × 品質で見た棲み分けマップ
- セカンドオピニオンを呼ぶ条件の運用ルール化
- Claude Code から Codex / Gemini を呼ぶ Skill の疑似コード
- ユースケース 5 例とコスト試算
「1 つに統一したほうが楽では?」という声にも触れつつ、使い分ける側の設計コストと、得られる精度・速度のトレードオフを中立に見ていきます。
特定ベンダー推しの記事ではない、という前提でお読みください。
各ツールの強み(中立に整理)
まずは 3 ツールの得意領域を、あえてフラットに並べます。どれも弱点はあるので、そこも含めて書きます。
Claude Code(Anthropic)
- 対話型ターミナル CLI
- 長時間セッションでの設計思考・リファクタに強い
- Skills / Hooks / Subagents / Agent Teams / MCP / Plugins と拡張機構が充実
- CLAUDE.md によるプロジェクト文脈の持ち込みが洗練されている
- 弱点: 長時間運用するとコンテキストが膨らみ、auto-compact で品質が落ちる場面がある
設計を詰める、アーキテクチャの判断基準を議論する、レビュー観点を整理する、といった"考える系"のタスクで手触りが安定する印象です。
Codex CLI(OpenAI)
- 対話型のターミナル CLI として、
codexコマンドから同期的に質問・壁打ち・コード生成ができる -
resume/fork/reviewなど、既存のセッションに途中介入して軌道修正するためのサブコマンドが揃っている - GPT-5 系のモデル更新と足並みが揃っている
- 弱点: Skill / Hook 的な高レベルの拡張機構は Claude Code と比べると薄めで、エコシステム面では後発感がある
対話でさくっとセカンドオピニオンを取る用途や、まとまった粒度のコード生成タスクに向いています。
Codex Cloud(OpenAI)
- Codex CLI とは別の機能として、クラウド側でタスクを非同期実行するワークフローが提供されている
- 「タスクを投げて、一定時間後に PR として結果を受け取る」fire-and-forget 型の使い方はこちらが担う
- 弱点: 非同期実行中の途中介入は限定的で、完成形のタスク記述が前提になりやすい
CLI と Cloud は別レイヤーとして整理しておくと、役割分担を設計しやすくなります。本記事で「Codex」と書く場合は、断りがない限り Codex CLI を指します。
Gemini CLI(Google)
- 長文コンテキスト(1M トークン級)の受け取りがデフォルト感覚
- マルチモーダル対応(画像・PDF・音声の扱い)が素直
- 無料枠が比較的広く、試し打ちのコストが低い
- Agent Skills / Hooks / Subagents / MCP といった拡張機構が一通り揃いつつあり、CLI 周辺のエコシステムは急速に整備されている
「大きな資料を丸ごと渡して要約させる」「画像込みの仕様書を解釈させる」「雑な質問でまず当たりをつける」といった用途に向いています。
誤解されがちな点
- 「Claude Code は一番賢いから他は不要」という主張も見かけますが、ベンチマークは切り口次第で順位が変わります
- 「Gemini は無料だから品質が低い」は単純化しすぎで、長文理解や画像扱いでは優位に立つ場面があります
- 「Codex は PR を勝手に作るから危ない」という評価は Codex Cloud の非同期実行を指していることが多く、Codex CLI 単体の動作と混同されがちです。CLI と Cloud を切り分けて評価するのが前提になります
どれも一面的な評価だと取りこぼしが出る、という認識からスタートします。
3 ツールの棲み分けマップ
ここからは、自分の手元で運用しているマトリクスを共有します。あくまで「筆者の環境と案件傾向ではこう落ち着いた」という一例です。
タスク種別 × ツール
| タスク種別 | Claude Code | Codex CLI | Gemini CLI |
|---|---|---|---|
| アーキテクチャ検討 | 主 | セカンドオピニオン | 素材投入の下処理 |
| 実装・リファクタ | 主 | 並列バッチ処理 | 使わないことも多い |
| PR レビュー | 主 | 並列レビュー | 追加視点として任意 |
| 長文コード理解 | 部分的に | 副次 | 主(長文コンテキスト) |
| 画像・PDF の解釈 | 条件付き | 弱い | 主 |
| 論文・仕様書の要約 | セカンドオピニオン | 副次 | 主 |
| バグ再現と切り分け | 主 | 並列検証 | 追加仮説の提示 |
| ドキュメント整形 | 主 | 副次 | 下書きの雑打ち |
"主"は自分のデフォルト、"セカンドオピニオン"は別視点を取りに行く用途、"並列"は同じタスクを同時に走らせる用途、というニュアンスです。
速度 × コスト × 品質の軸
| 軸 | Claude Code | Codex CLI | Gemini CLI |
|---|---|---|---|
| 応答速度(対話) | 中〜速 | 中〜速(CLI は同期、Cloud は非同期) | 速い |
| 応答品質(設計系) | 高い傾向 | 高い傾向 | 中〜高(タスク依存) |
| 応答品質(長文要約) | 中〜高 | 中〜高 | 高い傾向 |
| 実行コスト | 中〜高 | 中〜高 | 低〜中(無料枠あり) |
| オフライン化 | 不可 | 不可 | 不可 |
数字を断定しないのは、契約プラン・タスク複雑度・プロンプト設計で順位が簡単に入れ替わるためです。「自分の案件では概ねこう」という目安として扱うのが現実的だと思います。
併用の副作用
併用には副作用もあります。
- CLI を 3 本切り替えることで、思考のコンテキストスイッチコストが上がる
- 結果のフォーマットが揃わず、比較に手間がかかる
- "意見が割れたときにどう決めるか"のルールを事前に決めておかないと、合議が機能しない
後半で運用ルールに触れますが、併用が無条件で優れているわけではなく、1 ツールに統一するほうが合う案件も普通にあります。
セカンドオピニオンを呼ぶ条件
3 ツールを常時並列で走らせるのは現実的ではないため、「どのタイミングで別ツールを呼ぶか」を条件化します。自分のルールは以下の通りで、あくまで叩き台として紹介します。
必須で呼ぶタイミング
- 資料・成果物を作成した後(記事、レポート、提案書、分析結果)
- 重要な意思決定の前(技術選定、アーキテクチャ判断、事業方針)
この 2 つだけは、自分への戒めとして強制しています。自画自賛を避けるためです。
推奨で呼ぶタイミング
- アプローチが 2 回以上失敗したとき(視点を変える)
- 複数の選択肢で迷ったとき(トレードオフの整理)
- 専門外の領域に踏み込むとき(壁打ち)
- バグの原因が特定できないとき(再現手順と試行内容を伝えて分析依頼)
呼ばなくてよいタイミング
- 単純なファイル操作やコマンド実行
- ユーザーが明確に手順を指定している作業
- 既に確立されたパターンの繰り返し
ここは"呼ばない勇気"の話でもあります。セカンドオピニオンは便利ですが、軽微な作業まで三重チェックにかけると速度が崩れます。線引きを決めておくのが実務寄りの工夫です。
回答の扱い方
- セカンドオピニオンはあくまでセカンドオピニオン。最終判断は自分(もしくはユーザー)が行う
- 指摘が妥当な場合は、修正案としてメインエージェントに差し戻す
- メインの判断と別ツールの見解が割れた場合は、両方の根拠を並べて提示する
「割れたら合議で決める」ではなく、「割れたら人間の判断に戻す」を基本にしています。AI 同士の多数決は、意外なほど当てになりません。
実装例: Claude Code から Codex / Gemini を呼ぶ Skill
Claude Code を主(オーケストレーター)にして、必要なときに Codex / Gemini を叩く構成を採っています。Skill はプロジェクト配下の .claude/skills/ などに置いて、Claude Code 内から呼べるようにします。
以下は疑似コードです。実装の細部はご自身の環境に合わせて調整してください。
注意: SKILL.md は Claude Code 自身への指示書であり、shell スクリプトとして自動実行されるものではありません。以下のコード例は「Claude Code がこの Skill を参照したとき、最終的にどんな CLI 呼び出しへ落ちるか」を示した疑似コードです。実際の Skill 定義は Claude Code がプロンプトとして解釈し、必要な CLI コマンドを組み立てて実行します。
/task-query-codex の疑似コード
---
name: task-query-codex
description: |
OpenAI Codex CLI をセカンドオピニオンとして呼び出す。
「Codexに聞いて」「別のAIの意見も聞きたい」「セカンドオピニオン」などで発火。
---
# 使い方
1. Claude Code で作業中に、セカンドオピニオンが必要と判断したら本 Skill を発火する
2. 質問テンプレートを埋めて `codex` CLI に投入する
3. 返答を Markdown として受け取り、そのまま会話に戻す
# 実行イメージ(bash 擬似)
cat <<'PROMPT' | codex exec --model gpt-5-codex
以下の資料をレビューしてください。
## 目的
{{ purpose }}
## 対象読者
{{ audience }}
## 確認してほしい観点
- 内容の正確性
- 論理の一貫性
- 抜け漏れ
- {{ extra_points }}
## 資料
{{ material }}
PROMPT
実体は単なる CLI 呼び出しですが、Skill として登録しておくと、Claude Code 側のセッションから自然に「Codex にも聞いてみて」と指示できるのが便利です。
/task-query-gemini の疑似コード
---
name: task-query-gemini
description: |
Google Gemini CLI に対して壁打ち・長文要約・マルチモーダル質問を投げる。
「Geminiに聞いて」「長文を要約して」「画像を読んで」などで発火。
---
# 使い方
1. 長文・画像・PDF を含む質問や、無料枠で試したい雑打ちに使う
2. `gemini` CLI に対してプロンプトとファイル添付を渡す
3. 返答を Markdown として受け取る
# 実行イメージ(bash 擬似)
# Gemini CLI は `-m` でモデル指定、`-p` でプロンプト、`@<path>` でファイル参照する書式
gemini -m gemini-2.5-pro -p "$(cat <<'PROMPT'
@{{ attachment_path }}
{{ question }}
## 観点
- {{ viewpoint }}
## 出力形式
Markdown の箇条書き
PROMPT
)"
本記事では Claude Code をオーケストレーター、Codex / Gemini を呼ばれる側とする一方向の依存に絞り、「Claude Code から呼ぶ相手」として /task-query-codex と /task-query-gemini の 2 つだけを扱います。逆向きに Codex / Gemini 側から Claude を呼ぶ構成も作れますが、運用がカオス化しやすいため、本稿の範囲からは外します。
ルールファイルとの接続
Skill と併せて、.claude/rules/ 配下に運用ガイドラインを置いておくと、Claude Code が自動で参照してくれます。筆者の場合は以下のような要点をテキストで書いています。
- セカンドオピニオンを呼ぶ条件(上述)
- 呼ばないケース
- 回答の扱い方(最終判断は人間)
- 依頼テンプレート(レビュー用・相談用)
Skill と rules の二段構えにしておくと、「いつ・どうやって・何を」叩くかがプロジェクト横断で揃う、という使い方もできます。
ユースケース 5 例
ここからは、実際に 3 ツールを併用したシナリオを 5 件紹介します。どれも「Claude Code が主、Codex / Gemini が副」という構成で書きます。
1. アーキテクチャ選定
- Claude Code で要件を整理し、候補 A / B / C を出す
- 各候補のトレードオフを表にまとめる
- ここで重要判断の前のルールが発火し、
/task-query-codexを呼ぶ - Codex が「候補 B は運用コストが跳ねる」と指摘した場合、根拠を付き合わせて最終判断を人間に戻す
"自分の推し案の粗を AI に探させる"という使い方です。Claude Code 単体だと、どうしても直近の会話に引きずられる場面があり、別モデルの目が効く局面です。
2. PR レビュー
- PR の diff を Claude Code に読ませ、観点ごとのレビューコメントを生成
- 必要に応じて Codex にも同じ diff を渡し、別視点のレビューを取る
- 長大な変更や横断影響が気になる場合のみ、Gemini に「既存ドキュメントへの影響」を長文コンテキストで読ませる
- 複数の結果が出た場合は、マージして投稿用ドラフトに落とす
3 ツール並列レビューはトークンコストと運用負荷が一気に跳ね上がるため、常用はおすすめしません。デフォルトはメイン 1 本、重要度が高い PR に限って 2 本目を足す、という階段式の使い方が現実的です。軽い PR は Claude Code 単体で十分、という割り切りをしています。
3. 長文コード理解
- レガシー repo(10 万行規模)をまず Gemini CLI に丸ごと渡して概要を得る
- その概要を Claude Code に渡して、気になる箇所だけピンポイントに読み込む
- 詳細解析で詰まったら Codex にも同じ箇所を渡し、別視点の説明を取る
長文を最初から Claude Code に渡すと、コンテキストが膨らんで auto-compact が発火しやすくなります。最初の当たりを Gemini に取らせて、そのサマリをメインに渡す、という流れが相性良いです。
4. バグ切り分け
- Claude Code で再現手順とスタックトレースを整理
- 2 回試しても原因が特定できない場合、
/task-query-codexまたは/task-query-geminiを発火 - セカンドオピニオン側に「試したこと」と「仮説」を渡し、別の切り口の仮説を 3 つ提案させる
- 仮説のうち 1 つが当たっていたら、Claude Code に戻して修正
失敗 2 回で別ツールに投げる、という閾値を決めておくと、沼にハマる時間を抑えられます。Codex と Gemini のどちらを呼ぶかはケースバイケースで、コード寄りの切り分けなら Codex、ログや資料を丸ごと読ませたいなら Gemini、という使い分けにしています。
5. 論文・仕様書の要約
- 論文 PDF を Gemini にそのまま渡し、章立てごとの要約を取る
- 重要な章だけ Claude Code で深掘り(疑問点の洗い出し、実装可能性の評価)
- 必要なら Codex に「擬似コード化」を依頼
「要約は Gemini、設計解釈は Claude、コード化は Codex」という役割分担に落ち着くことが多いです。もちろん、論文や業務ドメインによっては Claude 単体のほうが早い、というケースもあります。
コストの考え方(筆者環境の参考)
ここは具体金額ではなく、筆者が実際に採っている「課金モデルの組み合わせ方」だけを共有します。各サービスはサブスクリプション(定額)/API 従量/無料枠の組み合わせで提供されており、金額はプラン・為替・使用頻度で大きく変わります。最新の料金は各公式ページで確認してください。
筆者の課金モデルの組み合わせ
| ツール | 採用している課金モデル | 主な用途 |
|---|---|---|
| Claude Code | サブスクリプション型の上位プラン | 主・長時間運用 |
| Codex CLI | ChatGPT 上位プラン付帯の利用枠を中心に、必要に応じて API 従量を併用 | 対話でのセカンドオピニオン、コード生成 |
| Gemini CLI | 無料枠を中心に、重いタスクのみ有料プラン/API 従量を併用 | 長文要約・画像解析 |
課金モデルがサブスクと従量で混在している点は注意が必要です。「全部サブスクで常時契約」にすると固定費が積み上がるため、筆者はメインを 1 本サブスク、残りは従量 or 無料枠、という組み合わせに寄せています。
コスト最適化の考え方
- 主を 1 つに固定: メインの対話先を絞ると、コンテキストスイッチと課金の両方が減る
- セカンドは条件発火: 前述の必須・推奨条件に合致したときだけ呼ぶ
- 無料枠を下見に使う: Gemini の無料枠は雑打ちの場として有用、という使い方もあります
- 非同期に振れるものは振る: Codex 的な fire-and-forget は、同期応答を待たないぶん思考時間を取り戻しやすい
「3 ツール契約=生産性 3 倍」にはなりません。増えるのは選択肢であって、生産性はルール設計で決まる、という前提で試算するのが健全だと思います。
運用ルールの設計
ここまでの内容を、実際に回す運用ルールに落とし込みます。参考までに、自分が使っている簡易ルールを共有します。
デフォルト動線
- すべての作業は Claude Code で開始する
- 作業中に「必須」条件(資料作成後・重要判断前)に触れたら、Codex か Gemini を呼ぶ
- 作業中に「推奨」条件(2 回失敗・選択肢に迷う・専門外・バグ原因不明)に触れたら、状況に合う別ツールを呼ぶ
- セカンドオピニオンの結果を Claude Code に戻し、最終案を人間がレビューする
ツール選択のヒューリスティック
- 対話で別視点の批判がほしい → Codex CLI
- 非同期で PR まで自動生成したい → Codex Cloud(本記事では深追いしない)
- 長文・マルチモーダルの下処理 → Gemini
- 設計議論・リファクタ・長時間運用 → Claude Code
- 迷ったら Claude Code で十分
上記はあくまで筆者の手元での寄せどころで、Codex や Gemini を主役に据える構成も十分あり得ます。
「迷ったら Claude Code」にしているのは、運用を Claude Code 中心に組んでいる、というだけの事情です。Codex や Gemini を主に据える選択肢も十分あり得ます。
やりすぎないための工夫
- 1 タスクに対して呼ぶ AI は最大 2 つまで(メイン+セカンド)
- 3 つ並列が必要と感じたら、タスクが分割不足のサイン
- セカンドオピニオンの結果は「採用/不採用/保留」のどれかを明示する
- 会議ではなく人間の意思決定に戻す
「多ければ多いほど良い」ではない、という点は繰り返しておきます。
注意点
併用フレームを運用していて、気になった点を率直に書きます。
コンテキスト切り替えコスト
3 ツールをまたぐと、プロンプトの書き方・結果フォーマット・ショートカットキーなどが微妙に異なり、思ったより脳のリソースを食います。筆者の体感では、「どのツールを呼ぶべきか」を考える時間そのものが、作業時間の 5〜10% ほどを占める感触です。
意見が割れたときの扱い
Claude と Codex で意見が割れたとき、「どっちを信じるか」を AI 同士に決めさせるのは避けたほうが無難です。両方の根拠を人間が読み、第三の案に着地するほうが、結果として失敗が少ない印象があります。
使わない選択肢
この記事の主張と一見矛盾しますが、「1 ツールに統一する」という選択肢も十分合理的です。たとえば以下のようなケースは、併用より単一運用のほうが相性が良いと感じます。
- 短期の案件・MVP 開発で、ルール設計の時間が惜しい
- チーム構成員のスキルがバラバラで、ツール数を絞ったほうがオンボーディングが楽
- 予算制約が厳しく、課金対象を 1 本に絞りたい
併用は"選択肢"であって"正解"ではありません。向き不向きで選ぶのが健全だと思います。
ベンダーロックの分散とその裏返し
3 ツール併用はベンダーロックを分散させる効果もあります。ただしその裏返しで、どのツールが廃止・値上げになっても部分的に影響を受けます。分散はリスク低減であると同時にリスクの面積を広げる、とも言えるので、このあたりも含めて中立に見るべき論点です。
まとめ
- 3 ツールは「最強決定戦」より「併用の設計」として捉えるほうが、実務の肌感に近いと感じています
- 各ツールの強みはフラットに把握し、タスク種別と速度・コスト・品質で棲み分けるのが基本線
- セカンドオピニオンは「必須条件」「推奨条件」「呼ばない条件」で運用ルール化すると、やりすぎを防げます
- Claude Code を主に据えて、Codex / Gemini を Skill 経由で呼ぶ構成は 1 つの選択肢です
- 併用は無条件に優れているわけではなく、1 ツール統一のほうが向く案件もあります
最後に、本記事はあくまで筆者の環境で落ち着いたフレームの一例です。各ツールは短いスパンでアップデートされており、半年後には棲み分けが変わっている可能性も十分あります。自分の手元で試して、自分のルールを書き直していくのが、結局のところ一番効くのではないかと思います。
同じように 3 ツール併用で運用している方のフィードバックや、「自分はこう棲み分けている」という知見もぜひ伺いたいです。