0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【徹底比較】7つのLLMでデータ分析帳票を作らせてみた - 実務で使えそうなのはどれか

Posted at

背景と目的

前回、データ帳票をVBAで作成するプロンプトを作成したが、実際に各社で採用されているLLMは異なる。そのため、以下の点で課題がある。

課題:

  • モデルごとに生成される帳票の品質が異なる
  • 各社の採用モデル次第では使いづらい、あるいは使えない可能性がある
  • どのモデルがどこまで使えるのか定量的な評価が不足

検証目的:
主要な7つのLLMに同じプロンプトを投げて、どのモデルが実務で使えるのかどこまで期待していいのかを明らかにする。

検証環境

  • 対象モデル: ChatGPT 5.2 Thinking / ChatGPT 5.2 / Claude 4.5 / Gemini Pro / Gemini 思考 / Gemini 高速 / Copilot Smart
  • 評価(入力)プロンプト: 「ECの広告運用を改善するための「広告費→流入→購入→粗利」まで追える日次×媒体別の意思決定用帳票を作れ。」
  • システムプロンプト: https://github.com/amenohabakiri-hue/gas_spreadsheet_prompt/blob/main/prompts_vba
  • 評価観点: 要件充足性 / 分析粒度 / 意思決定指標 / データ構造設計 / 実務即応性 / 計算ロジック / 生成時間
  • : 各モデルが生成したVBAコード及び評価資料の詳細は、本記事では掲載していない。本記事は検証結果の分析と知見の共有に焦点を当てている。

結論

万能な「最強モデル」は存在しない。用途による使い分けが必須である。

用途 推奨モデル 生成時間 理由
本番運用帳票 ChatGPT 5.2 Thinking 約10分 完成度が高く追加修正不要
プロトタイプ Claude 4.5 約13秒 3シート構成を超高速生成
時間最優先 Copilot Smart 約10秒 最速で実用レベル
バランス重視 Gemini Pro 約1分 構文エラー修正による配慮を要する可能性あり

総合評価

評価サマリー

モデル 総合
評価
生成
時間
要件
充足
構造
設計
意思決定
支援
実務
即応性
効率
スコア
ChatGPT 5.2 Thinking S 10分 0.16
Gemini Pro A 1分 1.33
Claude 4.5 A 13秒 6.15
Copilot Smart B+ 10秒 7.50
ChatGPT 5.2 B 10秒 6.00
Gemini 思考 B 15秒 4.00
Gemini 高速 C+ 10秒 × 4.50

※効率スコア = 品質スコア(100点満点) ÷ 生成時間(秒)

生成時間 vs 品質

品質
 ↑
 │                              ★ ChatGPT 5.2 Thinking (10分/S)
 │
 │                    ☆ Gemini Pro (1分/A)
 │  ☆ Claude 4.5 (13秒/A)
 │  ○ Copilot (10秒/B+)
 │  ○ ChatGPT 5.2 (10秒/B)  ○ Gemini思考 (15秒/B)
 │  △ Gemini高速 (10秒/C+)
 └──────────────────────────────────────→ 時間
      10秒        1分              10分

生成時間クラス別の特徴

知見: 生成時間と品質は基本比例する。各時間クラスで実装される機能には明確な差がある。

10秒クラス(ChatGPT 5.2、Gemini 思考・高速、Copilot Smart)

実装される機能:

  • 基本KPI(CVR、CPA、ROAS、粗利率)
  • 単一シートの生データ、または3シート構成(Claude系)

実装されない機能:

  • ❌ 目標値なし
  • ❌ アクション判定ロジック
  • ❌ 期間フィルタ
  • ❌ キャンペーン粒度

実務評価: プロトタイプや叩き台としては十分。意思決定支援機能は手動追加が必要。

1分クラス(Gemini Pro)

実装される機能:

  • 基本KPIに加え、2シート構成(Raw + Summary)
  • オーガニック流入対応などの実務的配慮
  • 媒体別サマリー集計

実装されない機能:

  • ❌ 目標値なし
  • ❌ アクション判定ロジック
  • ❌ 期間フィルタ

実務評価: バランスが良く、日常運用には十分。ただしエラー修正が必要な場合がある。

10分クラス(ChatGPT 5.2 Thinking)

実装される機能:

  • 4シート構成(Master + Raw + DailyMedia + Dashboard)
  • 目標値(Target ROAS/CPA)のマスタ管理
  • アクション判定ロジック(「STOP候補」「改善必要」「維持/拡大」)
  • 期間フィルタ(開始日・終了日で自動再計算)
  • キャンペーン粒度でのデータ保持
  • ファネル全体(Imp→Click→Visit→CV)の追跡

実務評価: 唯一「意思決定支援機能」まで実装される。初回構築時の投資対効果は高い。

各モデルの特徴比較

各モデルの特徴と評価

🥇 ChatGPT 5.2 Thinking(評価: S)

構成: Master → Raw → DailyMedia → Dashboard(4シート)

image.png

実装された機能:

  • マスタ管理(媒体別のTarget ROAS/CPA定義)
  • アクション判定ロジック(「STOP候補」「改善必要」「維持/拡大」の自動判定)
  • 期間フィルタ(開始日・終了日変更で自動再計算)
  • キャンペーン粒度でのデータ保持

メリット:

  • ファネル全体(Imp→Click→Visit→CV)を追跡可能
  • ボトルネック特定が可能
  • 施策効果測定が定量化できる

評価: 10分の生成時間は長いが、手動で同等の帳票を作成すると数時間かかる。初回構築時の投資としては十分価値がある。

🥈 Claude 4.5(評価: A)

構成: RawData → Summary → Dashboard(3シート)

image.png

強み:

  • 13秒で3シート構成という驚異的な時間効率
  • Raw / 集計 / 可視化の明確な階層分離
  • 効率スコア 6.15(2位)

弱み: 目標値なし / アクション判定なし / ファネル上流(Imp/Click)なし

評価: プロトタイプ作成に最適。13秒で骨格を作り、必要に応じて手動追加する使い方がベスト。

🥈 Gemini Pro(評価: A)

構成: Ad_Data → Ad_Summary(2シート)

image.png

強み:

  • オーガニック流入対応(広告費0円の分岐処理)
  • Net Profit定義(GrossProfit - Cost)
  • ウィンドウ枠固定

弱み:

  • 変数識別エラーあり(要修正)
  • 目標値なし

評価: 1分で実務的な2シート構成。バランスの取れた選択肢だが、生成コードにエラーが含まれる場合があり修正が必要。

その他モデル

モデル 評価 シート構成 強み 弱み
Copilot Smart B+ 3シート Claude 4.5と同一構造。効率スコア7.50(1位)。緊急対応最適 意思決定支援機能なし
ChatGPT 5.2 B 1シート 基本KPI網羅 サマリーなし。ピボット加工必要
Gemini 思考 B 1シート 媒体種類が実務的 サマリー・ダッシュボードなし
Gemini 高速 C+ 1シート 10秒で生成 原価率・客単価が固定値。指標表示形式に誤り。実務利用リスク高

まとめ

わかったこと

  1. 万能モデルは存在しない: 使用モデルの期待値を握っておく
  2. 時間と品質のトレードオフ: 深い推論ができるモデルはアウトプットの質もよい
  3. 意思決定支援機能の有無: 目標値比較とアクション判定があるのはChatGPT 5.2 Thinkingのみ
  4. 効率スコアの逆説: 最高品質のモデルは効率は最低(効率スコアで0.16)だが、手動作成時間を考慮すると投資対効果は高い

総合推奨

観点 1位 2位 3位
品質 ChatGPT 5.2 Thinking Gemini Pro / Claude 4.5 -
速度 Copilot Smart (10秒) ChatGPT 5.2 (10秒) Claude 4.5 (13秒)
コスパ Claude 4.5 / Copilot ChatGPT 5.2 Gemini 思考

品質は圧倒的にGPT-5.2 thinkingであったが、時間と質で考えるとClaude 4.5の方が実用に耐えうると考える。

所感

  • 今回、メジャーなLLMを網羅的に検証した結果、品質と生成時間の間に明確なトレードオフが存在することが確認できた。
  • 一方で、今回のthinkingでは約490行のコードを一括出力し、結果としてエラーは発生しなかったが、一般論として長大なコード生成は破綻リスクがある。そのため、どこまでをLLMに求めるかに応じて、指示の粒度や分割方法を調整する必要がある。
  • また今回は比較的簡単な指示問題であったが、要件をより詳細に与えることで、10秒クラスの生成でも品質向上が期待できる可能性がある。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?