背景と目的
前回、データ帳票をVBAで作成するプロンプトを作成したが、実際に各社で採用されているLLMは異なる。そのため、以下の点で課題がある。
課題:
- モデルごとに生成される帳票の品質が異なる
- 各社の採用モデル次第では使いづらい、あるいは使えない可能性がある
- どのモデルがどこまで使えるのか定量的な評価が不足
検証目的:
主要な7つのLLMに同じプロンプトを投げて、どのモデルが実務で使えるのか、どこまで期待していいのかを明らかにする。
検証環境
- 対象モデル: ChatGPT 5.2 Thinking / ChatGPT 5.2 / Claude 4.5 / Gemini Pro / Gemini 思考 / Gemini 高速 / Copilot Smart
- 評価(入力)プロンプト: 「ECの広告運用を改善するための「広告費→流入→購入→粗利」まで追える日次×媒体別の意思決定用帳票を作れ。」
- システムプロンプト: https://github.com/amenohabakiri-hue/gas_spreadsheet_prompt/blob/main/prompts_vba
- 評価観点: 要件充足性 / 分析粒度 / 意思決定指標 / データ構造設計 / 実務即応性 / 計算ロジック / 生成時間
- 注: 各モデルが生成したVBAコード及び評価資料の詳細は、本記事では掲載していない。本記事は検証結果の分析と知見の共有に焦点を当てている。
結論
万能な「最強モデル」は存在しない。用途による使い分けが必須である。
| 用途 | 推奨モデル | 生成時間 | 理由 |
|---|---|---|---|
| 本番運用帳票 | ChatGPT 5.2 Thinking | 約10分 | 完成度が高く追加修正不要 |
| プロトタイプ | Claude 4.5 | 約13秒 | 3シート構成を超高速生成 |
| 時間最優先 | Copilot Smart | 約10秒 | 最速で実用レベル |
| バランス重視 | Gemini Pro | 約1分 | 構文エラー修正による配慮を要する可能性あり |
総合評価
評価サマリー
| モデル | 総合 評価 |
生成 時間 |
要件 充足 |
構造 設計 |
意思決定 支援 |
実務 即応性 |
効率 スコア |
|---|---|---|---|---|---|---|---|
| ChatGPT 5.2 Thinking | S | 10分 | ◎ | ◎ | ◎ | ◎ | 0.16 |
| Gemini Pro | A | 1分 | ○ | ○ | ○ | ○ | 1.33 |
| Claude 4.5 | A | 13秒 | ○ | ○ | △ | ○ | 6.15 |
| Copilot Smart | B+ | 10秒 | ○ | ○ | △ | △ | 7.50 |
| ChatGPT 5.2 | B | 10秒 | ○ | △ | △ | △ | 6.00 |
| Gemini 思考 | B | 15秒 | ○ | △ | △ | △ | 4.00 |
| Gemini 高速 | C+ | 10秒 | △ | △ | × | △ | 4.50 |
※効率スコア = 品質スコア(100点満点) ÷ 生成時間(秒)
生成時間 vs 品質
品質
↑
│ ★ ChatGPT 5.2 Thinking (10分/S)
│
│ ☆ Gemini Pro (1分/A)
│ ☆ Claude 4.5 (13秒/A)
│ ○ Copilot (10秒/B+)
│ ○ ChatGPT 5.2 (10秒/B) ○ Gemini思考 (15秒/B)
│ △ Gemini高速 (10秒/C+)
└──────────────────────────────────────→ 時間
10秒 1分 10分
生成時間クラス別の特徴
知見: 生成時間と品質は基本比例する。各時間クラスで実装される機能には明確な差がある。
10秒クラス(ChatGPT 5.2、Gemini 思考・高速、Copilot Smart)
実装される機能:
- 基本KPI(CVR、CPA、ROAS、粗利率)
- 単一シートの生データ、または3シート構成(Claude系)
実装されない機能:
- ❌ 目標値なし
- ❌ アクション判定ロジック
- ❌ 期間フィルタ
- ❌ キャンペーン粒度
実務評価: プロトタイプや叩き台としては十分。意思決定支援機能は手動追加が必要。
1分クラス(Gemini Pro)
実装される機能:
- 基本KPIに加え、2シート構成(Raw + Summary)
- オーガニック流入対応などの実務的配慮
- 媒体別サマリー集計
実装されない機能:
- ❌ 目標値なし
- ❌ アクション判定ロジック
- ❌ 期間フィルタ
実務評価: バランスが良く、日常運用には十分。ただしエラー修正が必要な場合がある。
10分クラス(ChatGPT 5.2 Thinking)
実装される機能:
- 4シート構成(Master + Raw + DailyMedia + Dashboard)
- 目標値(Target ROAS/CPA)のマスタ管理
- アクション判定ロジック(「STOP候補」「改善必要」「維持/拡大」)
- 期間フィルタ(開始日・終了日で自動再計算)
- キャンペーン粒度でのデータ保持
- ファネル全体(Imp→Click→Visit→CV)の追跡
実務評価: 唯一「意思決定支援機能」まで実装される。初回構築時の投資対効果は高い。
各モデルの特徴比較
各モデルの特徴と評価
🥇 ChatGPT 5.2 Thinking(評価: S)
構成: Master → Raw → DailyMedia → Dashboard(4シート)
実装された機能:
- マスタ管理(媒体別のTarget ROAS/CPA定義)
- アクション判定ロジック(「STOP候補」「改善必要」「維持/拡大」の自動判定)
- 期間フィルタ(開始日・終了日変更で自動再計算)
- キャンペーン粒度でのデータ保持
メリット:
- ファネル全体(Imp→Click→Visit→CV)を追跡可能
- ボトルネック特定が可能
- 施策効果測定が定量化できる
評価: 10分の生成時間は長いが、手動で同等の帳票を作成すると数時間かかる。初回構築時の投資としては十分価値がある。
🥈 Claude 4.5(評価: A)
構成: RawData → Summary → Dashboard(3シート)
強み:
- 13秒で3シート構成という驚異的な時間効率
- Raw / 集計 / 可視化の明確な階層分離
- 効率スコア 6.15(2位)
弱み: 目標値なし / アクション判定なし / ファネル上流(Imp/Click)なし
評価: プロトタイプ作成に最適。13秒で骨格を作り、必要に応じて手動追加する使い方がベスト。
🥈 Gemini Pro(評価: A)
構成: Ad_Data → Ad_Summary(2シート)
強み:
- オーガニック流入対応(広告費0円の分岐処理)
- Net Profit定義(GrossProfit - Cost)
- ウィンドウ枠固定
弱み:
- 変数識別エラーあり(要修正)
- 目標値なし
評価: 1分で実務的な2シート構成。バランスの取れた選択肢だが、生成コードにエラーが含まれる場合があり修正が必要。
その他モデル
| モデル | 評価 | シート構成 | 強み | 弱み |
|---|---|---|---|---|
| Copilot Smart | B+ | 3シート | Claude 4.5と同一構造。効率スコア7.50(1位)。緊急対応最適 | 意思決定支援機能なし |
| ChatGPT 5.2 | B | 1シート | 基本KPI網羅 | サマリーなし。ピボット加工必要 |
| Gemini 思考 | B | 1シート | 媒体種類が実務的 | サマリー・ダッシュボードなし |
| Gemini 高速 | C+ | 1シート | 10秒で生成 | 原価率・客単価が固定値。指標表示形式に誤り。実務利用リスク高 |
まとめ
わかったこと
- 万能モデルは存在しない: 使用モデルの期待値を握っておく
- 時間と品質のトレードオフ: 深い推論ができるモデルはアウトプットの質もよい
- 意思決定支援機能の有無: 目標値比較とアクション判定があるのはChatGPT 5.2 Thinkingのみ
- 効率スコアの逆説: 最高品質のモデルは効率は最低(効率スコアで0.16)だが、手動作成時間を考慮すると投資対効果は高い
総合推奨
| 観点 | 1位 | 2位 | 3位 |
|---|---|---|---|
| 品質 | ChatGPT 5.2 Thinking | Gemini Pro / Claude 4.5 | - |
| 速度 | Copilot Smart (10秒) | ChatGPT 5.2 (10秒) | Claude 4.5 (13秒) |
| コスパ | Claude 4.5 / Copilot | ChatGPT 5.2 | Gemini 思考 |
品質は圧倒的にGPT-5.2 thinkingであったが、時間と質で考えるとClaude 4.5の方が実用に耐えうると考える。
所感
- 今回、メジャーなLLMを網羅的に検証した結果、品質と生成時間の間に明確なトレードオフが存在することが確認できた。
- 一方で、今回のthinkingでは約490行のコードを一括出力し、結果としてエラーは発生しなかったが、一般論として長大なコード生成は破綻リスクがある。そのため、どこまでをLLMに求めるかに応じて、指示の粒度や分割方法を調整する必要がある。
- また今回は比較的簡単な指示問題であったが、要件をより詳細に与えることで、10秒クラスの生成でも品質向上が期待できる可能性がある。


