0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Claude Code Skills で株スクリーニングを自動化した話 Vol.5【4つのAIに反証させて考え直す DeepThink】

0
Last updated at Posted at 2026-04-24

📚 シリーズ記事一覧はこちら

概要 — AIに「もう一度考え直して」と言わせる仕組み

AIに投資の質問をすると、すぐに答えが返ってくる。「この株買うべき?」→「PERが割安なので買い推奨です」。

でも、本当にそれでいいのか?

人間が重要な判断をするとき、一人で即決はしない。同僚に相談し、上司に壁打ちし、反対意見をもらい、データを追加で調べ、もう一度考え直す。結論に至るプロセスこそが、判断の質を決める。

DeepThink は、この「考え直す」プロセスをAIで再現した仕組みだ。

1つのAIが結論を出したら、4つの異なるAI(Claude、GPT、Gemini、Grok)が同時にレビューする。ある者は「本当にそうか?リスクを見落としていないか?」と反証し、別の者は「3つのシナリオで考えるとどうなる?」と問い、また別の者は「SNSでは投資家がどう反応している?」とリアルタイムの世論を持ってくる。

反証を受けた結論は修正され、再び評価される。このループが「もう穴がない」と判断されるまで自律的に繰り返される。

人間がやることは2つだけ。最初に「これを深く考えて」と伝えること。そして「止めたいときに止める」こと。あとはAI同士が勝手に議論し、結論を磨き上げてくれる。

要するに、性格の違う4人のアナリストに同じ結論を同時レビューさせ、穴がなくなるまで考え直させる仕組みだ。

なお、DeepThink は意思決定の 補助ツール であり、最終判断は必ず人間の責任 だ。AIが出す推奨はあくまで分析の材料であって、投資助言ではない。

普通のAI DeepThink
回答 1回で答える 反証してから答える
視点 単一のAI 4つのAI
根拠が足りないとき そのまま出す 自分で追加調査する
過去の失敗 参照しない 教訓と照合する
所要時間 数秒 2〜15分

入力と出力例

入力

「再投資先を提案して。deepthinkで」

たったこの一言。テーマを伝えるだけでいい。

出力(実際の実行結果をベースに再構成)

まず、実行プランが提示される。

🧠 DeepThinkingモードで分析します
深度: medium(max 12 agents, 16 LLM calls, 所要時間 約2〜5分)

📋 実行プラン:
  Step 1: 教訓 + ポートフォリオ現況ロード → ギャップ特定
          → screen_stocks() で候補をスクリーニング → 市況調査
  Step 2: 4-Swarm 並列レビュー
  Step 3: 不足があれば追加調査(RSI、単元コスト等)
  Step 5: 統合レポート

続けますか?

「はい」と答えると、あとは自律的に進む。DeepThink は Zero-shot でプランを組み立てるので、「再投資先」というテーマから「まずポートフォリオの現状を読んで、ギャップを特定してから、そのギャップに合うスクリーニング条件を決める」という手順を自分で判断する。

最終的に出てくるのは、こんなレポートだ:

■ エグゼクティブサマリー

大幅な再投資は見送り推奨。グロース候補は軒並みRSI70超で
過熱、インカムは既に62.5%で超過。
最小介入として要注視銘柄を売却 + ヘッジ超過を微調整し、
CB(Chubb)1株を購入。残りはキャッシュで押し目を待つ。
「何もしない」も有効。

■ Swarm 議論の統合

GPTは「買わない理由が多い。グロースはRSI過熱、インカムは
超過、予算が中途半端」と反証
→ 採用。大型入替を見送り、最小介入に方針転換した。

Geminiは「楽観→VZ、中立→DBS、悲観→CB」と3シナリオ分析
→ 部分採用。市況の不確実性を踏まえ、悲観耐性の高いCBを
  優先。VZは利下げが見えてから再検討。

Grokは「DBS +0.8(最高センチメント)、CB +0.6(決算好調
だが株価下落)」を報告
→ DBS却下(100株×57SGD≈$3,570で予算不足)。
  CBは決算後の調整が押し目の可能性として採用。

Claude(自身)は「ヘッジ超過の是正と組み合わせれば
予算が広がる」と評価 → 採用。

→ 4者とも「今は積極的に買う局面ではない」で一致。
  最小介入で配分ルール違反を是正しつつ、
  押し目に備えるキャッシュを確保する方針とした。

■ 詳細

  スクリーニング結果(screen_stocks() で4条件・1,078件):
    USグロース: GOOGL, MSFT, MU → 全てRSI70超で見送り
    US高配当: VZ(RSI40, 配当6.2%) → 利下げ待ちで保留
    SGX高配当: DBS, OCBC, UOB → 100株単位で予算不足
    唯一の適格候補: CB(Chubb) PER11.8, Beta0.50, RSI56

  シナリオ分析(Gemini):
    楽観(30%): 利下げ → VZが最も恩恵
    中立(50%): 据え置き → DBS(高金利でNIM維持)
    悲観(20%): インフレ再燃 → CB(保険の価格決定力)

  推奨アクション:
    1. 要注視銘柄を売却(バリュートラップ候補)
    2. ヘッジETFを13株売却(超過11.4%→8%に是正)
    3. CB(Chubb) 1株購入($333)
    4. 残り$1,617はキャッシュ保持(押し目待ち)
    5. 「何もしない」も選択肢

忙しいときはエグゼクティブサマリーだけで判断できる。「なぜその結論なのか」を知りたいときは Swarm 議論の統合を読む。詳細データが必要なら最後のセクションを見る。

特に注目してほしいのは Swarm 議論の統合 の部分だ。4つのAIの指摘が単に並んでいるのではなく、「採用した / 却下した / 部分採用した」とその理由が明記されている。これにより「なぜこの結論に至ったのか」が追跡可能になる。

ポイントは3つ:

  • 結論だけでなく「なぜその結論に至ったか」の思考過程が見える
  • シナリオと確率が明示される。「上がるかも下がるかも」ではなく具体的
  • AIの指摘で結論が修正されている。反証を経て磨かれた結論が出てくる

背景 — なぜ「考え直す」仕組みが必要だったのか

1回答えて終わり、の限界

前回の記事で、7つのAIエージェントが自律的に連携する投資アシスタントを作った。Screener が銘柄を探し、Analyst が分析し、Strategist がレコメンドし、Reviewer がマルチLLMで検証する。

これで「トヨタってどう?」のような単純な質問には十分答えられるようになった。

しかし、「ポートフォリオ全体を見直したい」「半年後を見据えて再設計したい」のような 複数の不確実性が絡む判断 では、1回の分析では足りなかった。

  • シナリオが1つしか検討されない(楽観だけ、悲観だけ)
  • 過去の教訓との照合が抜ける
  • 「本当にそうか?」という反証がない
  • 結論が出た後に「あ、これも調べるべきだった」と気づく

人間でも同じだ。重要な投資判断を5分で下すことはない。調べ、考え、相談し、考え直す。そのプロセスに価値がある。

通常モードと DeepThink の違い

前回の記事で作った通常モード(stock-skills)と DeepThink は、設計思想が根本的に異なる。

通常モード DeepThink
方式 Few-shot(あらかじめ決めた型を参考に答える) Zero-shot(白紙から手順を組み立てて考える)
エージェント選択 routing.yaml で「この意図→このエージェント」を事前マッピング オーケストレーターがデータを見て自律的に判断
パラメータ examples.yaml のサンプル値を参考にAIが調整 PFの現状を読んでからギャップに基づいて決定
レビュー Reviewer(Claude+GPT+Gemini)が出力を検証 4-Swarm(Claude+GPT+Gemini+Grok)が結論を反証→修正
反復 1回で完結 収束するまで自律ループ
向いている質問 「トヨタってどう?」「いい株ある?」 「ポートフォリオを再設計したい」「半年後を見据えて」

通常モードは「この質問にはこのエージェント」というパターンを Few-shot(事例ベース) で示す。「いい株ある?」→ Screener、「トヨタってどう?」→ Analyst、のように事前に対応表を用意しておく。AIはパターンを参考に素早く回答する。

DeepThink は事前の対応表を使わない。テーマを受け取ったら、まずデータを読み、何が足りないかを自分で判断し、どのツールをどの順番で使うかを自律的に決める。これが Zero-shot(白紙からの自律判断) だ。事前に想定していなかった複合的な問いにも対応できる。

Anthropic の Evaluator-Optimizer パターン

Anthropic が提唱する Agentic AI のビルディングブロック の中に、Evaluator-Optimizer パターン がある。

生成 → 評価 → 改善 → 再評価 → ... → 収束

1つのAIが生成した結果を、別のAIが評価し、その評価を踏まえて改善する。これを収束するまで繰り返す。

DeepThink はこのパターンを投資判断に適用し、さらに 4つの異なるLLMによる Swarm(群知能) に拡張したものだ。

なぜ4つのAIなのか

1つのAIだけでレビューすると、そのモデル固有のバイアスに気づけない。

実際に各AIに「あなたの得意・不得意を正直に教えて」と聞いてみた結果が興味深い:

  • GPT: 「推論と反証は得意。でもWeb検索ができないので、事実確認を任されると "もっともらしい未検証の要約" になりやすい」
  • Gemini: 「Google検索と長文分析は最強。でも Devil's Advocate(反証役)は苦手。中立すぎて、容赦ない反証ができない」
  • Grok: 「X(旧Twitter)のリアルタイムデータは自分だけの武器。でもシナリオ分析は表層的になりがち」

それぞれに得意・不得意がある。 だから固定役割ではなく、テーマに応じて最適な役割を割り当てる。ポートフォリオ再設計ならGPTに反証役を、決算分析ならGPTにシナリオ分析役を。

アーキテクチャ — 2層モデルの 4-Swarm

ここからは、この仕組みの中身を技術的に解説する。

全体構造

スクリーンショット 2026-04-24 9.56.03.png

2層モデル

DeepThink の核心は、4つのLLMの役割を 2つの層 に分けていることだ。

インフラ層(固定) — 物理的に他のAIでは代替できない能力:

LLM 能力 なぜ固定か
Grok X(旧Twitter)のリアルタイム検索 本実装では X 上のリアルタイム反応取得を Grok に担当させている
Gemini Google検索 + 100万トークン読込 本実装では Web 検索付きの事実確認を Gemini に固定している

推論層(動的) — テーマに応じて4者に割り当てる思考役割:

役割 何をするか
Devil's Advocate 反証する。「本当にそうか?」と突く
Scenario Analyst 複数シナリオを構築し、確率と影響を推定
Lesson Auditor 過去の教訓と矛盾していないかチェック
Portfolio Aligner ポートフォリオへの具体的な影響を計算

テーマで役割が変わる

各AIには得意・不得意がある。これを 適性マトリクス として定義し、テーマに応じて最適な組み合わせを選ぶ:

役割 GPT Gemini Grok Claude
Devil's Advocate 最適 苦手 まあまあ
Scenario Analyst 最適 得意 表層的
Lesson Auditor 最適 得意
Portfolio Aligner 最適

この「適性マトリクス」は、実際に各LLMに自己評価を依頼して作った。GPTは「検索なしでFact Checkを任されると危険」と正直に申告し、Geminiは「反証役は中立すぎて苦手」と認めた。AIの自己認識に基づいた役割設計 だ。

ハーネス — 暴走防止の安全装置

自律ループは暴走のリスクがある。そこで ハーネス制約 を設けている:

limits:
  max_iterations: 5      # ループ最大5回
  max_agent_spawns: 20   # エージェント起動 最大20回(全ステップ累計)
  max_llm_calls: 25      # 外部LLM呼び出し 最大25回
  max_wall_time_minutes: 15  # 経過時間 最大15分

深度は3段階から選べる:

深度 ループ回数 LLM呼び出し上限 所要時間目安 用途
shallow 1回 8回 約30秒〜1分 軽い補完
medium 2-3回 16回 約2〜5分 標準的な分析
deep 最大5回 25回 約5〜15分 徹底分析

設計と実装

実行フローの詳細

Step 0: 実行プラン提示 + ユーザー承認(ここだけ人間が判断)
  ↓
Step 1: 初回分析
  ・過去の教訓をロード
  ・対象銘柄の投資テーゼ(thesis)をロード
  ・stock-skills のエージェント(Researcher等)でデータ取得
  ↓
Step 2: 評価(自己評価 + 4-Swarm並列レビュー)
  ・5つの観点で自己チェック(情報充足/シナリオ/ポートフォリオ整合/反論/教訓)
  ・4つのLLMを並列起動し、それぞれの役割で分析
  ・反証を踏まえて結論を修正
  ・不足リストを作成
  ↓
Step 3: 改善
  ・不足リストの各項目に「何を / どのLLMで / なぜ」を付与
  ・自律的に追加調査を実行
  ↓
Step 4: チェックポイント(中間報告のみ。承認待ちではない)
  ・不足があれば → Step 2 に戻る(自律ループ)
  ・不足なし → Step 5 へ
  ↓
Step 5: 統合レポート(3部構成)
  ・エグゼクティブサマリー: 結論を3-5行で(忙しい人はここだけ)
  ・Swarm 議論の統合: 各AIの指摘を採用/却下の判断付きで
  ・詳細: シナリオ / ポートフォリオ影響 / 根拠データ / 推奨アクション

呼び出し方法

各LLMの呼び出しは tools/llm.py の共通インターフェースを使う:

# GPT: 批判的思考モード(推論深度を制御できる)
call_llm('gpt', '<GPTモデル>', prompt, reasoning='high')

# Gemini: Google検索を使った事実収集
call_llm('gemini', '<Gemini Flashモデル>', prompt, web_search=True)

# Gemini: 長文シナリオ分析(100万トークン対応)
call_llm('gemini', '<Gemini Proモデル>', prompt)

# Grok: X(旧Twitter)のリアルタイム市場データ
search_x_sentiment("AAPL", "Apple")  # tools/grok.py

# Claude: オーケストレーター自身が直接実行(追加API不要)

各LLMの具体的なモデル名は config/llm_capabilities.yaml で管理しており、新モデルがリリースされたら設定ファイルの更新だけで対応できる。

APIキーが未設定のLLMは自動でスキップされ、利用可能なLLMだけで実行される(graceful degradation)。全てのAPIキーがなくても、Claude 単体で基本的な DeepThink は動作する。ただし、4者全員が揃うことで反証の多様性が最大化される。

AIにAIの設計を評価させた

この2層モデルの設計自体を、GPT・Gemini・Grok の3つのLLMにレビューさせた。

GPTの指摘:

完全動的割当は判断コスト・ブレ・再現性低下を招く。ハード制約(検索可否)とソフト制約(得意不得意)を分けるべき。

Geminiの指摘:

既存のTeamCreate/Agentパターンとの一貫性は極めて高い。ただしClaude がオーケストレーターとthinkerを兼任すると、制御指示と推論内容が混同するリスクがある。

Grokの指摘:

完全動的ではなく「制約付き動的割当」を推奨。自分(Grok)はSentiment Reader以外だと明確に品質が落ちる。

3つのAIの指摘を統合した結果が、「インフラ層は固定、推論層は動的」という2層モデルになった。設計のレビューもAIに任せ、AIの自己認識を設計に反映する というアプローチだ。

限界とリスク

正直に書いておくべきことがある:

  • Echo chamber リスク: 複数のAIが互いの出力を参照するため、1つの誤りが「複数のAIが同意した高信頼な誤り」に化ける可能性がある
  • 適性マトリクスの脆さ: AIの自己申告に基づいているため、モデルのアップデートで得意・不得意が変わる可能性がある
  • シナリオ確率の限界: AIが提示する「楽観20%/中立55%/悲観25%」のような数値に厳密な統計的根拠はない。あくまで思考の整理ツールとして使うべきだ
  • コスト: medium 深度で外部LLMを10回以上呼び出す。API料金は無視できない

DeepThink は「AIが常に正しい答えを出す」仕組みではない。「AIが見落としを減らし、考えるプロセスを可視化する」仕組みだ。

まとめ

DeepThink は、反証・シナリオ分析・過去の教訓との照合・ポートフォリオ整合 を複数LLMで回し、結論を磨き上げる仕組みだ。

向いているのは、地政学やマクロのように不確実性が多い問い。単純な銘柄質問にはオーバーキルだ。

この仕組みの考え方 — 「生成→評価→改善のループ」「異なる特性を持つモデルの役割分担」「ハーネスによる暴走防止」 — は投資分析に限らず、あらゆるAIアプリケーションに応用できる。

参考

リポジトリ

Vol.4 で全面リニューアルしたため、新しいリポジトリとして公開しています。


免責事項: 本記事および stock-skills は投資の学習・研究を目的としたものです。投資判断は全て自己責任で行ってください。 本システムの出力(スクリーニング結果、分析、レコメンド等)は投資助言ではありません。実際の売買にあたっては、ご自身で十分な調査を行い、リスクを理解した上でご判断ください。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?