Claude Code Skills で株スクリーニングを自動化した話 Vol.5【4つのAIに反証させて考え直す DeepThink】

Last updated at 2026-04-24Posted at 2026-04-24

📚 シリーズ記事一覧はこちら

概要 — AIに「もう一度考え直して」と言わせる仕組み

AIに投資の質問をすると、すぐに答えが返ってくる。「この株買うべき？」→「PERが割安なので買い推奨です」。

でも、本当にそれでいいのか？

人間が重要な判断をするとき、一人で即決はしない。同僚に相談し、上司に壁打ちし、反対意見をもらい、データを追加で調べ、もう一度考え直す。結論に至るプロセスこそが、判断の質を決める。

DeepThink は、この「考え直す」プロセスをAIで再現した仕組みだ。

1つのAIが結論を出したら、4つの異なるAI（Claude、GPT、Gemini、Grok）が同時にレビューする。ある者は「本当にそうか？リスクを見落としていないか？」と反証し、別の者は「3つのシナリオで考えるとどうなる？」と問い、また別の者は「SNSでは投資家がどう反応している？」とリアルタイムの世論を持ってくる。

反証を受けた結論は修正され、再び評価される。このループが「もう穴がない」と判断されるまで自律的に繰り返される。

人間がやることは2つだけ。最初に「これを深く考えて」と伝えること。そして「止めたいときに止める」こと。あとはAI同士が勝手に議論し、結論を磨き上げてくれる。

要するに、性格の違う4人のアナリストに同じ結論を同時レビューさせ、穴がなくなるまで考え直させる仕組みだ。

なお、DeepThink は意思決定の 補助ツール であり、最終判断は必ず人間の責任 だ。AIが出す推奨はあくまで分析の材料であって、投資助言ではない。

	普通のAI	DeepThink
回答	1回で答える	反証してから答える
視点	単一のAI	4つのAI
根拠が足りないとき	そのまま出す	自分で追加調査する
過去の失敗	参照しない	教訓と照合する
所要時間	数秒	2〜15分

入力と出力例

入力

「再投資先を提案して。deepthinkで」

たったこの一言。テーマを伝えるだけでいい。

出力（実際の実行結果をベースに再構成）

まず、実行プランが提示される。

🧠 DeepThinkingモードで分析します
深度: medium（max 12 agents, 16 LLM calls, 所要時間 約2〜5分）

📋 実行プラン:
  Step 1: 教訓 + ポートフォリオ現況ロード → ギャップ特定
          → screen_stocks() で候補をスクリーニング → 市況調査
  Step 2: 4-Swarm 並列レビュー
  Step 3: 不足があれば追加調査（RSI、単元コスト等）
  Step 5: 統合レポート

続けますか？

「はい」と答えると、あとは自律的に進む。DeepThink は Zero-shot でプランを組み立てるので、「再投資先」というテーマから「まずポートフォリオの現状を読んで、ギャップを特定してから、そのギャップに合うスクリーニング条件を決める」という手順を自分で判断する。

最終的に出てくるのは、こんなレポートだ:

■ エグゼクティブサマリー

大幅な再投資は見送り推奨。グロース候補は軒並みRSI70超で
過熱、インカムは既に62.5%で超過。
最小介入として要注視銘柄を売却 + ヘッジ超過を微調整し、
CB(Chubb)1株を購入。残りはキャッシュで押し目を待つ。
「何もしない」も有効。

■ Swarm 議論の統合

GPTは「買わない理由が多い。グロースはRSI過熱、インカムは
超過、予算が中途半端」と反証
→ 採用。大型入替を見送り、最小介入に方針転換した。

Geminiは「楽観→VZ、中立→DBS、悲観→CB」と3シナリオ分析
→ 部分採用。市況の不確実性を踏まえ、悲観耐性の高いCBを
  優先。VZは利下げが見えてから再検討。

Grokは「DBS +0.8（最高センチメント）、CB +0.6（決算好調
だが株価下落）」を報告
→ DBS却下（100株×57SGD≈$3,570で予算不足）。
  CBは決算後の調整が押し目の可能性として採用。

Claude（自身）は「ヘッジ超過の是正と組み合わせれば
予算が広がる」と評価 → 採用。

→ 4者とも「今は積極的に買う局面ではない」で一致。
  最小介入で配分ルール違反を是正しつつ、
  押し目に備えるキャッシュを確保する方針とした。

■ 詳細

  スクリーニング結果（screen_stocks() で4条件・1,078件）:
    USグロース: GOOGL, MSFT, MU → 全てRSI70超で見送り
    US高配当: VZ(RSI40, 配当6.2%) → 利下げ待ちで保留
    SGX高配当: DBS, OCBC, UOB → 100株単位で予算不足
    唯一の適格候補: CB(Chubb) PER11.8, Beta0.50, RSI56

  シナリオ分析（Gemini）:
    楽観(30%): 利下げ → VZが最も恩恵
    中立(50%): 据え置き → DBS（高金利でNIM維持）
    悲観(20%): インフレ再燃 → CB（保険の価格決定力）

  推奨アクション:
    1. 要注視銘柄を売却（バリュートラップ候補）
    2. ヘッジETFを13株売却（超過11.4%→8%に是正）
    3. CB(Chubb) 1株購入（$333）
    4. 残り$1,617はキャッシュ保持（押し目待ち）
    5. 「何もしない」も選択肢

忙しいときはエグゼクティブサマリーだけで判断できる。「なぜその結論なのか」を知りたいときは Swarm 議論の統合を読む。詳細データが必要なら最後のセクションを見る。

特に注目してほしいのは Swarm 議論の統合 の部分だ。4つのAIの指摘が単に並んでいるのではなく、「採用した / 却下した / 部分採用した」とその理由が明記されている。これにより「なぜこの結論に至ったのか」が追跡可能になる。

ポイントは3つ:

結論だけでなく「なぜその結論に至ったか」の思考過程が見える
シナリオと確率が明示される。「上がるかも下がるかも」ではなく具体的
AIの指摘で結論が修正されている。反証を経て磨かれた結論が出てくる

背景 — なぜ「考え直す」仕組みが必要だったのか

1回答えて終わり、の限界

前回の記事で、7つのAIエージェントが自律的に連携する投資アシスタントを作った。Screener が銘柄を探し、Analyst が分析し、Strategist がレコメンドし、Reviewer がマルチLLMで検証する。

これで「トヨタってどう？」のような単純な質問には十分答えられるようになった。

しかし、「ポートフォリオ全体を見直したい」「半年後を見据えて再設計したい」のような 複数の不確実性が絡む判断 では、1回の分析では足りなかった。

シナリオが1つしか検討されない（楽観だけ、悲観だけ）
過去の教訓との照合が抜ける
「本当にそうか？」という反証がない
結論が出た後に「あ、これも調べるべきだった」と気づく

人間でも同じだ。重要な投資判断を5分で下すことはない。調べ、考え、相談し、考え直す。そのプロセスに価値がある。

通常モードと DeepThink の違い

前回の記事で作った通常モード（stock-skills）と DeepThink は、設計思想が根本的に異なる。

	通常モード	DeepThink
方式	Few-shot（あらかじめ決めた型を参考に答える）	Zero-shot（白紙から手順を組み立てて考える）
エージェント選択	routing.yaml で「この意図→このエージェント」を事前マッピング	オーケストレーターがデータを見て自律的に判断
パラメータ	examples.yaml のサンプル値を参考にAIが調整	PFの現状を読んでからギャップに基づいて決定
レビュー	Reviewer（Claude+GPT+Gemini）が出力を検証	4-Swarm（Claude+GPT+Gemini+Grok）が結論を反証→修正
反復	1回で完結	収束するまで自律ループ
向いている質問	「トヨタってどう？」「いい株ある？」	「ポートフォリオを再設計したい」「半年後を見据えて」

通常モードは「この質問にはこのエージェント」というパターンを Few-shot（事例ベース） で示す。「いい株ある？」→ Screener、「トヨタってどう？」→ Analyst、のように事前に対応表を用意しておく。AIはパターンを参考に素早く回答する。

DeepThink は事前の対応表を使わない。テーマを受け取ったら、まずデータを読み、何が足りないかを自分で判断し、どのツールをどの順番で使うかを自律的に決める。これが Zero-shot（白紙からの自律判断） だ。事前に想定していなかった複合的な問いにも対応できる。

Anthropic の Evaluator-Optimizer パターン

Anthropic が提唱する Agentic AI のビルディングブロックの中に、Evaluator-Optimizer パターン がある。

生成 → 評価 → 改善 → 再評価 → ... → 収束

1つのAIが生成した結果を、別のAIが評価し、その評価を踏まえて改善する。これを収束するまで繰り返す。

DeepThink はこのパターンを投資判断に適用し、さらに 4つの異なるLLMによる Swarm（群知能） に拡張したものだ。

なぜ4つのAIなのか

1つのAIだけでレビューすると、そのモデル固有のバイアスに気づけない。

実際に各AIに「あなたの得意・不得意を正直に教えて」と聞いてみた結果が興味深い:

GPT: 「推論と反証は得意。でもWeb検索ができないので、事実確認を任されると "もっともらしい未検証の要約" になりやすい」
Gemini: 「Google検索と長文分析は最強。でも Devil's Advocate（反証役）は苦手。中立すぎて、容赦ない反証ができない」
Grok: 「X（旧Twitter）のリアルタイムデータは自分だけの武器。でもシナリオ分析は表層的になりがち」

それぞれに得意・不得意がある。 だから固定役割ではなく、テーマに応じて最適な役割を割り当てる。ポートフォリオ再設計ならGPTに反証役を、決算分析ならGPTにシナリオ分析役を。

アーキテクチャ — 2層モデルの 4-Swarm

ここからは、この仕組みの中身を技術的に解説する。

全体構造

2層モデル

DeepThink の核心は、4つのLLMの役割を 2つの層 に分けていることだ。

インフラ層（固定） — 物理的に他のAIでは代替できない能力:

LLM	能力	なぜ固定か
Grok	X（旧Twitter）のリアルタイム検索	本実装では X 上のリアルタイム反応取得を Grok に担当させている
Gemini	Google検索 + 100万トークン読込	本実装では Web 検索付きの事実確認を Gemini に固定している

推論層（動的） — テーマに応じて4者に割り当てる思考役割:

役割	何をするか
Devil's Advocate	反証する。「本当にそうか？」と突く
Scenario Analyst	複数シナリオを構築し、確率と影響を推定
Lesson Auditor	過去の教訓と矛盾していないかチェック
Portfolio Aligner	ポートフォリオへの具体的な影響を計算

テーマで役割が変わる

各AIには得意・不得意がある。これを 適性マトリクス として定義し、テーマに応じて最適な組み合わせを選ぶ:

役割	GPT	Gemini	Grok	Claude
Devil's Advocate	最適	苦手	まあまあ	可
Scenario Analyst	最適	得意	表層的	可
Lesson Auditor	可	最適	可	得意
Portfolio Aligner	可	可	可	最適

この「適性マトリクス」は、実際に各LLMに自己評価を依頼して作った。GPTは「検索なしでFact Checkを任されると危険」と正直に申告し、Geminiは「反証役は中立すぎて苦手」と認めた。AIの自己認識に基づいた役割設計 だ。

ハーネス — 暴走防止の安全装置

自律ループは暴走のリスクがある。そこで ハーネス制約 を設けている:

limits:
  max_iterations: 5      # ループ最大5回
  max_agent_spawns: 20   # エージェント起動 最大20回（全ステップ累計）
  max_llm_calls: 25      # 外部LLM呼び出し 最大25回
  max_wall_time_minutes: 15  # 経過時間 最大15分

深度は3段階から選べる:

深度	ループ回数	LLM呼び出し上限	所要時間目安	用途
shallow	1回	8回	約30秒〜1分	軽い補完
medium	2-3回	16回	約2〜5分	標準的な分析
deep	最大5回	25回	約5〜15分	徹底分析

設計と実装

実行フローの詳細

Step 0: 実行プラン提示 + ユーザー承認（ここだけ人間が判断）
  ↓
Step 1: 初回分析
  ・過去の教訓をロード
  ・対象銘柄の投資テーゼ（thesis）をロード
  ・stock-skills のエージェント（Researcher等）でデータ取得
  ↓
Step 2: 評価（自己評価 + 4-Swarm並列レビュー）
  ・5つの観点で自己チェック（情報充足/シナリオ/ポートフォリオ整合/反論/教訓）
  ・4つのLLMを並列起動し、それぞれの役割で分析
  ・反証を踏まえて結論を修正
  ・不足リストを作成
  ↓
Step 3: 改善
  ・不足リストの各項目に「何を / どのLLMで / なぜ」を付与
  ・自律的に追加調査を実行
  ↓
Step 4: チェックポイント（中間報告のみ。承認待ちではない）
  ・不足があれば → Step 2 に戻る（自律ループ）
  ・不足なし → Step 5 へ
  ↓
Step 5: 統合レポート（3部構成）
  ・エグゼクティブサマリー: 結論を3-5行で（忙しい人はここだけ）
  ・Swarm 議論の統合: 各AIの指摘を採用/却下の判断付きで
  ・詳細: シナリオ / ポートフォリオ影響 / 根拠データ / 推奨アクション

呼び出し方法

各LLMの呼び出しは tools/llm.py の共通インターフェースを使う:

# GPT: 批判的思考モード（推論深度を制御できる）
call_llm('gpt', '<GPTモデル>', prompt, reasoning='high')

# Gemini: Google検索を使った事実収集
call_llm('gemini', '<Gemini Flashモデル>', prompt, web_search=True)

# Gemini: 長文シナリオ分析（100万トークン対応）
call_llm('gemini', '<Gemini Proモデル>', prompt)

# Grok: X(旧Twitter)のリアルタイム市場データ
search_x_sentiment("AAPL", "Apple")  # tools/grok.py

# Claude: オーケストレーター自身が直接実行（追加API不要）

各LLMの具体的なモデル名は config/llm_capabilities.yaml で管理しており、新モデルがリリースされたら設定ファイルの更新だけで対応できる。

APIキーが未設定のLLMは自動でスキップされ、利用可能なLLMだけで実行される（graceful degradation）。全てのAPIキーがなくても、Claude 単体で基本的な DeepThink は動作する。ただし、4者全員が揃うことで反証の多様性が最大化される。

AIにAIの設計を評価させた

この2層モデルの設計自体を、GPT・Gemini・Grok の3つのLLMにレビューさせた。

GPTの指摘:

完全動的割当は判断コスト・ブレ・再現性低下を招く。ハード制約（検索可否）とソフト制約（得意不得意）を分けるべき。

Geminiの指摘:

既存のTeamCreate/Agentパターンとの一貫性は極めて高い。ただしClaude がオーケストレーターとthinkerを兼任すると、制御指示と推論内容が混同するリスクがある。

Grokの指摘:

完全動的ではなく「制約付き動的割当」を推奨。自分（Grok）はSentiment Reader以外だと明確に品質が落ちる。

3つのAIの指摘を統合した結果が、「インフラ層は固定、推論層は動的」という2層モデルになった。設計のレビューもAIに任せ、AIの自己認識を設計に反映する というアプローチだ。

限界とリスク

正直に書いておくべきことがある:

Echo chamber リスク: 複数のAIが互いの出力を参照するため、1つの誤りが「複数のAIが同意した高信頼な誤り」に化ける可能性がある
適性マトリクスの脆さ: AIの自己申告に基づいているため、モデルのアップデートで得意・不得意が変わる可能性がある
シナリオ確率の限界: AIが提示する「楽観20%/中立55%/悲観25%」のような数値に厳密な統計的根拠はない。あくまで思考の整理ツールとして使うべきだ
コスト: medium 深度で外部LLMを10回以上呼び出す。API料金は無視できない

DeepThink は「AIが常に正しい答えを出す」仕組みではない。「AIが見落としを減らし、考えるプロセスを可視化する」仕組みだ。

まとめ

DeepThink は、反証・シナリオ分析・過去の教訓との照合・ポートフォリオ整合 を複数LLMで回し、結論を磨き上げる仕組みだ。

向いているのは、地政学やマクロのように不確実性が多い問い。単純な銘柄質問にはオーバーキルだ。

この仕組みの考え方 — 「生成→評価→改善のループ」「異なる特性を持つモデルの役割分担」「ハーネスによる暴走防止」 — は投資分析に限らず、あらゆるAIアプリケーションに応用できる。

参考

Building effective agents - Anthropic — Evaluator-Optimizer パターンの原典
Claude Code Skills — エージェント定義の仕組み
シリーズ Vol.4: マルチAIエージェントで自律化 — DeepThink の前提となる 7エージェント構成の解説

リポジトリ

Vol.4 で全面リニューアルしたため、新しいリポジトリとして公開しています。

免責事項: 本記事および stock-skills は投資の学習・研究を目的としたものです。投資判断は全て自己責任で行ってください。 本システムの出力（スクリーニング結果、分析、レコメンド等）は投資助言ではありません。実際の売買にあたっては、ご自身で十分な調査を行い、リスクを理解した上でご判断ください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up