📚 シリーズ記事一覧はこちら
概要 — AIに「もう一度考え直して」と言わせる仕組み
AIに投資の質問をすると、すぐに答えが返ってくる。「この株買うべき?」→「PERが割安なので買い推奨です」。
でも、本当にそれでいいのか?
人間が重要な判断をするとき、一人で即決はしない。同僚に相談し、上司に壁打ちし、反対意見をもらい、データを追加で調べ、もう一度考え直す。結論に至るプロセスこそが、判断の質を決める。
DeepThink は、この「考え直す」プロセスをAIで再現した仕組みだ。
1つのAIが結論を出したら、4つの異なるAI(Claude、GPT、Gemini、Grok)が同時にレビューする。ある者は「本当にそうか?リスクを見落としていないか?」と反証し、別の者は「3つのシナリオで考えるとどうなる?」と問い、また別の者は「SNSでは投資家がどう反応している?」とリアルタイムの世論を持ってくる。
反証を受けた結論は修正され、再び評価される。このループが「もう穴がない」と判断されるまで自律的に繰り返される。
人間がやることは2つだけ。最初に「これを深く考えて」と伝えること。そして「止めたいときに止める」こと。あとはAI同士が勝手に議論し、結論を磨き上げてくれる。
要するに、性格の違う4人のアナリストに同じ結論を同時レビューさせ、穴がなくなるまで考え直させる仕組みだ。
なお、DeepThink は意思決定の 補助ツール であり、最終判断は必ず人間の責任 だ。AIが出す推奨はあくまで分析の材料であって、投資助言ではない。
| 普通のAI | DeepThink | |
|---|---|---|
| 回答 | 1回で答える | 反証してから答える |
| 視点 | 単一のAI | 4つのAI |
| 根拠が足りないとき | そのまま出す | 自分で追加調査する |
| 過去の失敗 | 参照しない | 教訓と照合する |
| 所要時間 | 数秒 | 2〜15分 |
入力と出力例
入力
「再投資先を提案して。deepthinkで」
たったこの一言。テーマを伝えるだけでいい。
出力(実際の実行結果をベースに再構成)
まず、実行プランが提示される。
🧠 DeepThinkingモードで分析します
深度: medium(max 12 agents, 16 LLM calls, 所要時間 約2〜5分)
📋 実行プラン:
Step 1: 教訓 + ポートフォリオ現況ロード → ギャップ特定
→ screen_stocks() で候補をスクリーニング → 市況調査
Step 2: 4-Swarm 並列レビュー
Step 3: 不足があれば追加調査(RSI、単元コスト等)
Step 5: 統合レポート
続けますか?
「はい」と答えると、あとは自律的に進む。DeepThink は Zero-shot でプランを組み立てるので、「再投資先」というテーマから「まずポートフォリオの現状を読んで、ギャップを特定してから、そのギャップに合うスクリーニング条件を決める」という手順を自分で判断する。
最終的に出てくるのは、こんなレポートだ:
■ エグゼクティブサマリー
大幅な再投資は見送り推奨。グロース候補は軒並みRSI70超で
過熱、インカムは既に62.5%で超過。
最小介入として要注視銘柄を売却 + ヘッジ超過を微調整し、
CB(Chubb)1株を購入。残りはキャッシュで押し目を待つ。
「何もしない」も有効。
■ Swarm 議論の統合
GPTは「買わない理由が多い。グロースはRSI過熱、インカムは
超過、予算が中途半端」と反証
→ 採用。大型入替を見送り、最小介入に方針転換した。
Geminiは「楽観→VZ、中立→DBS、悲観→CB」と3シナリオ分析
→ 部分採用。市況の不確実性を踏まえ、悲観耐性の高いCBを
優先。VZは利下げが見えてから再検討。
Grokは「DBS +0.8(最高センチメント)、CB +0.6(決算好調
だが株価下落)」を報告
→ DBS却下(100株×57SGD≈$3,570で予算不足)。
CBは決算後の調整が押し目の可能性として採用。
Claude(自身)は「ヘッジ超過の是正と組み合わせれば
予算が広がる」と評価 → 採用。
→ 4者とも「今は積極的に買う局面ではない」で一致。
最小介入で配分ルール違反を是正しつつ、
押し目に備えるキャッシュを確保する方針とした。
■ 詳細
スクリーニング結果(screen_stocks() で4条件・1,078件):
USグロース: GOOGL, MSFT, MU → 全てRSI70超で見送り
US高配当: VZ(RSI40, 配当6.2%) → 利下げ待ちで保留
SGX高配当: DBS, OCBC, UOB → 100株単位で予算不足
唯一の適格候補: CB(Chubb) PER11.8, Beta0.50, RSI56
シナリオ分析(Gemini):
楽観(30%): 利下げ → VZが最も恩恵
中立(50%): 据え置き → DBS(高金利でNIM維持)
悲観(20%): インフレ再燃 → CB(保険の価格決定力)
推奨アクション:
1. 要注視銘柄を売却(バリュートラップ候補)
2. ヘッジETFを13株売却(超過11.4%→8%に是正)
3. CB(Chubb) 1株購入($333)
4. 残り$1,617はキャッシュ保持(押し目待ち)
5. 「何もしない」も選択肢
忙しいときはエグゼクティブサマリーだけで判断できる。「なぜその結論なのか」を知りたいときは Swarm 議論の統合を読む。詳細データが必要なら最後のセクションを見る。
特に注目してほしいのは Swarm 議論の統合 の部分だ。4つのAIの指摘が単に並んでいるのではなく、「採用した / 却下した / 部分採用した」とその理由が明記されている。これにより「なぜこの結論に至ったのか」が追跡可能になる。
ポイントは3つ:
- 結論だけでなく「なぜその結論に至ったか」の思考過程が見える
- シナリオと確率が明示される。「上がるかも下がるかも」ではなく具体的
- AIの指摘で結論が修正されている。反証を経て磨かれた結論が出てくる
背景 — なぜ「考え直す」仕組みが必要だったのか
1回答えて終わり、の限界
前回の記事で、7つのAIエージェントが自律的に連携する投資アシスタントを作った。Screener が銘柄を探し、Analyst が分析し、Strategist がレコメンドし、Reviewer がマルチLLMで検証する。
これで「トヨタってどう?」のような単純な質問には十分答えられるようになった。
しかし、「ポートフォリオ全体を見直したい」「半年後を見据えて再設計したい」のような 複数の不確実性が絡む判断 では、1回の分析では足りなかった。
- シナリオが1つしか検討されない(楽観だけ、悲観だけ)
- 過去の教訓との照合が抜ける
- 「本当にそうか?」という反証がない
- 結論が出た後に「あ、これも調べるべきだった」と気づく
人間でも同じだ。重要な投資判断を5分で下すことはない。調べ、考え、相談し、考え直す。そのプロセスに価値がある。
通常モードと DeepThink の違い
前回の記事で作った通常モード(stock-skills)と DeepThink は、設計思想が根本的に異なる。
| 通常モード | DeepThink | |
|---|---|---|
| 方式 | Few-shot(あらかじめ決めた型を参考に答える) | Zero-shot(白紙から手順を組み立てて考える) |
| エージェント選択 | routing.yaml で「この意図→このエージェント」を事前マッピング | オーケストレーターがデータを見て自律的に判断 |
| パラメータ | examples.yaml のサンプル値を参考にAIが調整 | PFの現状を読んでからギャップに基づいて決定 |
| レビュー | Reviewer(Claude+GPT+Gemini)が出力を検証 | 4-Swarm(Claude+GPT+Gemini+Grok)が結論を反証→修正 |
| 反復 | 1回で完結 | 収束するまで自律ループ |
| 向いている質問 | 「トヨタってどう?」「いい株ある?」 | 「ポートフォリオを再設計したい」「半年後を見据えて」 |
通常モードは「この質問にはこのエージェント」というパターンを Few-shot(事例ベース) で示す。「いい株ある?」→ Screener、「トヨタってどう?」→ Analyst、のように事前に対応表を用意しておく。AIはパターンを参考に素早く回答する。
DeepThink は事前の対応表を使わない。テーマを受け取ったら、まずデータを読み、何が足りないかを自分で判断し、どのツールをどの順番で使うかを自律的に決める。これが Zero-shot(白紙からの自律判断) だ。事前に想定していなかった複合的な問いにも対応できる。
Anthropic の Evaluator-Optimizer パターン
Anthropic が提唱する Agentic AI のビルディングブロック の中に、Evaluator-Optimizer パターン がある。
生成 → 評価 → 改善 → 再評価 → ... → 収束
1つのAIが生成した結果を、別のAIが評価し、その評価を踏まえて改善する。これを収束するまで繰り返す。
DeepThink はこのパターンを投資判断に適用し、さらに 4つの異なるLLMによる Swarm(群知能) に拡張したものだ。
なぜ4つのAIなのか
1つのAIだけでレビューすると、そのモデル固有のバイアスに気づけない。
実際に各AIに「あなたの得意・不得意を正直に教えて」と聞いてみた結果が興味深い:
- GPT: 「推論と反証は得意。でもWeb検索ができないので、事実確認を任されると "もっともらしい未検証の要約" になりやすい」
- Gemini: 「Google検索と長文分析は最強。でも Devil's Advocate(反証役)は苦手。中立すぎて、容赦ない反証ができない」
- Grok: 「X(旧Twitter)のリアルタイムデータは自分だけの武器。でもシナリオ分析は表層的になりがち」
それぞれに得意・不得意がある。 だから固定役割ではなく、テーマに応じて最適な役割を割り当てる。ポートフォリオ再設計ならGPTに反証役を、決算分析ならGPTにシナリオ分析役を。
アーキテクチャ — 2層モデルの 4-Swarm
ここからは、この仕組みの中身を技術的に解説する。
全体構造
2層モデル
DeepThink の核心は、4つのLLMの役割を 2つの層 に分けていることだ。
インフラ層(固定) — 物理的に他のAIでは代替できない能力:
| LLM | 能力 | なぜ固定か |
|---|---|---|
| Grok | X(旧Twitter)のリアルタイム検索 | 本実装では X 上のリアルタイム反応取得を Grok に担当させている |
| Gemini | Google検索 + 100万トークン読込 | 本実装では Web 検索付きの事実確認を Gemini に固定している |
推論層(動的) — テーマに応じて4者に割り当てる思考役割:
| 役割 | 何をするか |
|---|---|
| Devil's Advocate | 反証する。「本当にそうか?」と突く |
| Scenario Analyst | 複数シナリオを構築し、確率と影響を推定 |
| Lesson Auditor | 過去の教訓と矛盾していないかチェック |
| Portfolio Aligner | ポートフォリオへの具体的な影響を計算 |
テーマで役割が変わる
各AIには得意・不得意がある。これを 適性マトリクス として定義し、テーマに応じて最適な組み合わせを選ぶ:
| 役割 | GPT | Gemini | Grok | Claude |
|---|---|---|---|---|
| Devil's Advocate | 最適 | 苦手 | まあまあ | 可 |
| Scenario Analyst | 最適 | 得意 | 表層的 | 可 |
| Lesson Auditor | 可 | 最適 | 可 | 得意 |
| Portfolio Aligner | 可 | 可 | 可 | 最適 |
この「適性マトリクス」は、実際に各LLMに自己評価を依頼して作った。GPTは「検索なしでFact Checkを任されると危険」と正直に申告し、Geminiは「反証役は中立すぎて苦手」と認めた。AIの自己認識に基づいた役割設計 だ。
ハーネス — 暴走防止の安全装置
自律ループは暴走のリスクがある。そこで ハーネス制約 を設けている:
limits:
max_iterations: 5 # ループ最大5回
max_agent_spawns: 20 # エージェント起動 最大20回(全ステップ累計)
max_llm_calls: 25 # 外部LLM呼び出し 最大25回
max_wall_time_minutes: 15 # 経過時間 最大15分
深度は3段階から選べる:
| 深度 | ループ回数 | LLM呼び出し上限 | 所要時間目安 | 用途 |
|---|---|---|---|---|
| shallow | 1回 | 8回 | 約30秒〜1分 | 軽い補完 |
| medium | 2-3回 | 16回 | 約2〜5分 | 標準的な分析 |
| deep | 最大5回 | 25回 | 約5〜15分 | 徹底分析 |
設計と実装
実行フローの詳細
Step 0: 実行プラン提示 + ユーザー承認(ここだけ人間が判断)
↓
Step 1: 初回分析
・過去の教訓をロード
・対象銘柄の投資テーゼ(thesis)をロード
・stock-skills のエージェント(Researcher等)でデータ取得
↓
Step 2: 評価(自己評価 + 4-Swarm並列レビュー)
・5つの観点で自己チェック(情報充足/シナリオ/ポートフォリオ整合/反論/教訓)
・4つのLLMを並列起動し、それぞれの役割で分析
・反証を踏まえて結論を修正
・不足リストを作成
↓
Step 3: 改善
・不足リストの各項目に「何を / どのLLMで / なぜ」を付与
・自律的に追加調査を実行
↓
Step 4: チェックポイント(中間報告のみ。承認待ちではない)
・不足があれば → Step 2 に戻る(自律ループ)
・不足なし → Step 5 へ
↓
Step 5: 統合レポート(3部構成)
・エグゼクティブサマリー: 結論を3-5行で(忙しい人はここだけ)
・Swarm 議論の統合: 各AIの指摘を採用/却下の判断付きで
・詳細: シナリオ / ポートフォリオ影響 / 根拠データ / 推奨アクション
呼び出し方法
各LLMの呼び出しは tools/llm.py の共通インターフェースを使う:
# GPT: 批判的思考モード(推論深度を制御できる)
call_llm('gpt', '<GPTモデル>', prompt, reasoning='high')
# Gemini: Google検索を使った事実収集
call_llm('gemini', '<Gemini Flashモデル>', prompt, web_search=True)
# Gemini: 長文シナリオ分析(100万トークン対応)
call_llm('gemini', '<Gemini Proモデル>', prompt)
# Grok: X(旧Twitter)のリアルタイム市場データ
search_x_sentiment("AAPL", "Apple") # tools/grok.py
# Claude: オーケストレーター自身が直接実行(追加API不要)
各LLMの具体的なモデル名は config/llm_capabilities.yaml で管理しており、新モデルがリリースされたら設定ファイルの更新だけで対応できる。
APIキーが未設定のLLMは自動でスキップされ、利用可能なLLMだけで実行される(graceful degradation)。全てのAPIキーがなくても、Claude 単体で基本的な DeepThink は動作する。ただし、4者全員が揃うことで反証の多様性が最大化される。
AIにAIの設計を評価させた
この2層モデルの設計自体を、GPT・Gemini・Grok の3つのLLMにレビューさせた。
GPTの指摘:
完全動的割当は判断コスト・ブレ・再現性低下を招く。ハード制約(検索可否)とソフト制約(得意不得意)を分けるべき。
Geminiの指摘:
既存のTeamCreate/Agentパターンとの一貫性は極めて高い。ただしClaude がオーケストレーターとthinkerを兼任すると、制御指示と推論内容が混同するリスクがある。
Grokの指摘:
完全動的ではなく「制約付き動的割当」を推奨。自分(Grok)はSentiment Reader以外だと明確に品質が落ちる。
3つのAIの指摘を統合した結果が、「インフラ層は固定、推論層は動的」という2層モデルになった。設計のレビューもAIに任せ、AIの自己認識を設計に反映する というアプローチだ。
限界とリスク
正直に書いておくべきことがある:
- Echo chamber リスク: 複数のAIが互いの出力を参照するため、1つの誤りが「複数のAIが同意した高信頼な誤り」に化ける可能性がある
- 適性マトリクスの脆さ: AIの自己申告に基づいているため、モデルのアップデートで得意・不得意が変わる可能性がある
- シナリオ確率の限界: AIが提示する「楽観20%/中立55%/悲観25%」のような数値に厳密な統計的根拠はない。あくまで思考の整理ツールとして使うべきだ
- コスト: medium 深度で外部LLMを10回以上呼び出す。API料金は無視できない
DeepThink は「AIが常に正しい答えを出す」仕組みではない。「AIが見落としを減らし、考えるプロセスを可視化する」仕組みだ。
まとめ
DeepThink は、反証・シナリオ分析・過去の教訓との照合・ポートフォリオ整合 を複数LLMで回し、結論を磨き上げる仕組みだ。
向いているのは、地政学やマクロのように不確実性が多い問い。単純な銘柄質問にはオーバーキルだ。
この仕組みの考え方 — 「生成→評価→改善のループ」「異なる特性を持つモデルの役割分担」「ハーネスによる暴走防止」 — は投資分析に限らず、あらゆるAIアプリケーションに応用できる。
参考
- Building effective agents - Anthropic — Evaluator-Optimizer パターンの原典
- Claude Code Skills — エージェント定義の仕組み
- シリーズ Vol.4: マルチAIエージェントで自律化 — DeepThink の前提となる 7エージェント構成の解説
リポジトリ
Vol.4 で全面リニューアルしたため、新しいリポジトリとして公開しています。
免責事項: 本記事および stock-skills は投資の学習・研究を目的としたものです。投資判断は全て自己責任で行ってください。 本システムの出力(スクリーニング結果、分析、レコメンド等)は投資助言ではありません。実際の売買にあたっては、ご自身で十分な調査を行い、リスクを理解した上でご判断ください。
