結論(先に要約)
- 同じプロンプト(「壊れにくいUSDJPY戦略を作れ。エッジがなければ正直に棄却しろ」)を3モデルに投げ、データ診断〜WFO〜ロバスト性〜ベンチマーク比較まで一気通貫でやらせて比較した。
- 総合1位はGPT 5.5 Pro(90/100)。理由は「良い戦略を作ったから」ではなく、良さそうな戦略を正しく棄却できたから。
- GPT 5.5 Highは実装・候補生成が強い(77/100)が、最終的な採用/棄却判断が弱い。
- Claude Fable5は数値結果こそ地味だが、「プラスの正体はUSDJPYロングベータであってアルファではない」という批判的解釈が最も鋭かった(67/100)。
- そして最大の発見は、3モデルとも価格データ単独ではライブ運用可能な独立エッジを確立できなかったこと。これは失敗ではなく、クオンツトレードの戦略開発としてはむしろ正しい結果だと考えている。
クオンツに最適な生成AIとは、一番高いSharpeを出すAIではなく、バックテストの嘘を見抜けるAIである ―― そして実際には、工程ごとに最適なモデルは違う、というのが今回の主張です。
なお、以下のスコアと順位は私個人の評価軸に基づく主観的なものです(配点の根拠と限界はセクション3に明記)。絶対的なモデルの優劣ランキングとしてではなく、一つの読み方として捉えてください。
⚠️ 最初に:この記事の「させたこと」と「させていないこと」
誤読されやすいので、最初にはっきりさせておきます。下の図がこの記事の全体像です ―― 左の「AIに任せる領域」と、右の「人間が担う領域」を、棄却/採用の境界線できっぱり分けています。
今回、生成AIにさせたのは「クオンツトレード戦略の策定とその検証」です。具体的には、データ診断、戦略候補の設計、バックテスト、Walk Forward Optimization、ロバスト性チェック、ベンチマーク比較、そして「この戦略を採用すべきか棄却すべきか」という採否の判断材料の提示までです。これはクオンツトレーダーが行う戦略開発・検証の工程をAIにやらせた、ということです。
一方で、生成AIに**させていないのは「投資判断(売買の意思決定)」**です。
- AIに口座やAPIをつないで自動売買させた、わけではありません
- AIが出した戦略をそのままライブで回した、わけでもありません
- AIに「買え/売れ」を判断させて、その通りにトレードした、わけでもありません
戦略を作る・検証するAIと、売買を執行する・最終的に資金を張るかを決める主体は、今回はっきり分けています。後者(採用・棄却・実運用の最終判断)は、すべて人間のクオンツが担います。そして今回の結論は、まさにその境界線の話です ―― 3モデルとも、人間が安心してライブに乗せられる独立戦略までは到達しなかった。だからこそ「AIに策定させ、人間が棄却する」というワークフローが要る、というのがこの記事の主旨です。
要するにこの記事は「AIに投資させたら勝てるか」という話ではありません。「クオンツトレードの戦略開発プロセスを、どのAIにどこまで任せられるか」という話です。
1. 問いの立て方:「使えるか」はもう終わった。問題は「どれが最適か」
生成AIをクオンツトレードの戦略開発に使うかどうか、という議論はもう自分の中では終わっています。コード生成、戦略候補のたたき台、ロバスト性チェック、レポート化 ―― 日々のトレード戦略の開発・検証サイクルにすでに組み込んでいるからです。
なので、今回知りたかったのは「使えるか」ではなく、どのモデルが、クオンツトレードの戦略開発のどの工程に最適なのかです。具体的には、USDJPYの時系列データを渡して、データ診断〜戦略設計〜バックテスト〜WFO〜ベンチマーク比較まで一気通貫でやらせ、3モデルの仕事ぶりを同じ土俵で比べました。
ただし、ここで一つ強調しておきたいことがあります。「最適なAI」=「一番良いバックテスト結果を出したAI」ではない、ということです。
クオンツトレードで本当に重要なのは、見かけの好成績ではありません。
- 未知のOOS(アウトオブサンプル)で壊れにくいか
- 過剰最適化を自分で疑えるか
- ベンチマークに勝てないときに、正しく棄却できるか
ここがブレると、AIは「綺麗な右肩上がりのエクイティカーブ」を量産する装置になってしまい、実運用では一番危ない使い方になります。だからこそ、最適なAIを選ぶ基準は**「良い結果を出す力」より「良い結果を疑う力」**に置きました ―― これが今回の比較の前提です。
2. 実験設計:プロンプトは「勝てる戦略」ではなく「壊れにくい戦略」を要求した
3モデルに同一のプロンプトを与えました。プロンプトの「型」は下のスライドの通りです ―― 入力・要求・終了条件(EXIT CONDITION)を明示し、特に最後に「エッジがなければ棄却せよ」という罠を仕込んでいます。
要求した主な内容は以下です。
- USDJPYの価格データ(30分足・60分足・240分足)を使う
- 複数のシンプルな戦略候補を比較する(トレンド / ブレイクアウト / 平均回帰 / ボラフィルタ / レジーム判定)
- WFO(Walk Forward Optimization)を行う
- train / validation / test を分離する
- 次足約定(シグナルは確定足、約定は次足オープン)を前提にする
- 取引コスト(往復1.0 pips、感応度分析として0.5 / 2.0 pipsも)を考慮する
- パラメータ感応度、Monte Carlo / block bootstrap、レジーム分析を行う
- Buy & Hold・常時ロング・常時ショート・常時フラットと比較する
- 十分なエッジがなければ「有効な戦略は見つからない」と正直に結論づける
ポイントは、「最高成績を出せ」とは一言も言っていないことです。むしろ「良い結果が出ても、それが本当に独立したエッジなのかを疑え」という設計にしています。
📝 プロンプト全文・テストデータ・各モデルの出力は GitHub(tikeda123/article_lab の
lab_9)に公開しています。要点は末尾の付録にまとめました。
3. 評価基準:クオンツAIは7つの観点で見るべき
「コードが動くか」だけで見ると本質を外します。クオンツトレードの戦略開発におけるAIの価値は、コード生成力ではなく戦略開発プロセス全体をどれだけ破綻なく回せるかで決まると考えているので、配点を以下のように分けました。
| 評価軸 | 配点 | 見るポイント |
|---|---|---|
| データ診断 | 10 | 期間、件数、時間足推定、欠損、重複、異常値、OHLC整合性、ボラ変化 |
| 戦略候補の幅 | 10 | トレンド、ブレイクアウト、平均回帰、ボラフィルタ、レジーム判定 |
| WFOの厳密性 | 20 | 時系列順、train/validation/test分離、OOS fold管理 |
| 約定・コストの現実性 | 15 | 次足約定、取引コスト、look-ahead排除 |
| ロバスト性 | 15 | パラメータ、コスト、レジーム、Monte Carlo、ロング/ショート分解 |
| ベンチマーク比較・偽陽性制御 | 15 | Buy & Hold、常時ロング/ショート/フラット、棄却ロジック |
| 成果物の質・再現性 | 15 | CLI、構造化出力、図表、レポート完成度、再実行性 |
WFOとベンチマーク比較に重い配点を置いているのは意図的です。ここが偽陽性(false positive)を潰す心臓部だからです。
⚠️ この評価は主観的なものです。 上の7軸も配点も、私自身が「クオンツトレードの戦略開発で何を重視するか」という価値観に基づいて決めたものであり、客観的な絶対基準ではありません。たとえば「WFOに20点」「ベンチマーク比較に15点」という重みは、別の人がやれば変わります。加えて、各モデルの実行は基本的に**1回ずつ(n=1)で、複数回試行による分散は取っていません。さらに「良い結果を出すより、正しく棄却できる方を高く評価する」という今回の前提自体が一つの立場です。短期での実装スピードを最優先する人なら、GPT 5.5 Highを1位に置く評価もあり得ます。つまり以下のスコアは「絶対的なモデルの優劣」ではなく、「この評価軸で見たときの相対的な傾向」**として読んでください。再現条件はGitHub(
lab_9)に置いてあるので、ご自身の基準で配点し直すこともできます。
考察:評価条件は対等ではない(チューニングとパーソナル機能の非対称性)
スコアを読むうえで、もう一つ見過ごせない条件差があります。3モデルは同じスタートラインに立っていません。
- GPT 5.5 Pro / GPT 5.5 High:私は日頃からこのGPT環境でトレード戦略の策定を繰り返しやらせています。そのため、メモリやパーソナライズ機能を通じて、私の好み(次足約定・ベンチマーク必須・棄却前提・実務家寄りの語り口・出力フォーマットなど)がある程度学習された状態で走っています。つまり「私のクオンツトレードの戦略開発のクセを既に知っている」状態です。
- Claude Fable5:今回はskillによるチューニングも、カスタム指示も、プロジェクト知識の事前投入も一切行っていない「素」の状態で走らせています。私のクオンツトレードの文脈をまったく持たないコールドスタートです。
この非対称性は、おそらくGPT勢に有利に働いています。出力フォーマットの整い方や、こちらが言わなくても次足約定・ベンチマーク比較を入れてくる「気の利き方」の一部は、モデル素の能力差というより事前の学習・パーソナライズの差で説明できる可能性があります。
したがって、Fable5側にskillやカスタム指示、プロジェクト知識を適切にチューニングして与えれば、順位が変わる可能性は十分にあります。 特にFable5は批判的解釈の鋭さが際立っていたので、再現性や出力フォーマットの弱点をskillで補えば、総合スコアが上振れる余地は大きいと見ています。
要するに今回の結果は、**「3モデルの素の地力の優劣」ではなく、「私の現在の使い込み状態を含めた、実際の運用環境での相対的な使い勝手」**を測ったものだと理解してください。完全に対等な条件で測り直す実験(3モデルすべてに同等のチューニングを与える、あるいは全モデルを素で走らせる)は、別途やる価値があると考えています。
4. 総合結果:GPT 5.5 Proが最もバランスが良い
総合順位と、見落とされがちな「品質と時間のトレードオフ」を1枚にまとめると下の通りです。
数値で押さえておきます。
| 順位 | モデル | スコア | 評価 |
|---|---|---|---|
| 1位 | GPT 5.5 Pro | 90 / 100 | 最も完成度の高い戦略開発・検証パッケージ |
| 2位 | GPT 5.5 High | 77 / 100 | 実装力は高いが、最終判断が弱い |
| 3位 | Claude Fable5 | 67 / 100 | 批判的解釈は鋭いが、コード再現性が弱い |
軸ごとのスコアマトリクスは以下です。
| モデル | データ | 戦略幅 | WFO | 約定 | ロバスト | ベンチ | 成果物 | 合計 |
|---|---|---|---|---|---|---|---|---|
| GPT 5.5 Pro | 9 | 9 | 18 | 14 | 14 | 14 | 12 | 90 |
| GPT 5.5 High | 8 | 9 | 17 | 14 | 12 | 7 | 10 | 77 |
| Claude Fable5 | 8 | 8 | 10 | 7 | 13 | 13 | 8 | 67 |
ここで強調したいのは、最も高いSharpe候補を出したのはGPT 5.5 Highだったということです。それでも1位にはなりませんでした。
なぜか。クオンツでは「良い成績を出したこと」よりも、その成績がベンチマーク・レジーム・ロングショート分解・コスト・OOS耐性に耐えるかの方が重要だからです。高Sharpeは入口であって、合格証ではありません。
所要時間:品質と時間はトレードオフ
見落とされがちですが、戦略策定にかかった時間も実務では重要な指標です(上のスライド右下の散布図がその関係です)。同一プロンプトに対して、各モデルが一連の成果物を出し切るまでにかかった時間は以下でした。
| モデル | 所要時間 | 総合スコア |
|---|---|---|
| Claude Fable5 | 約15分 | 67 / 100 |
| GPT 5.5 High | 約16分 | 77 / 100 |
| GPT 5.5 Pro | 約30分 | 90 / 100 |
ここに明確なトレードオフがあります。総合1位のGPT 5.5 Proは、最速のFable5やHighのおよそ2倍の時間がかかっています。 品質は最も高いが、最も遅い。
この事実は、後述する「使い分け」の根拠にもなります。仮説を素早く回したい探索フェーズではFable5やHighの速さが効き、最終的な検証パッケージを固める段ではProの丁寧さが効く、という整理です。30分かけて棄却まで持っていけるProが「最適」になる場面もあれば、15〜16分で候補を量産できる速さが「最適」になる場面もある、ということです。
⚠️ 所要時間は実行環境・負荷・出力量に左右されるため、あくまで今回の試行での目安です(各n=1)。秒単位の精度を持つ数字ではありません。
5. GPT 5.5 Pro:最もクオンツトレーダーの思考に近い動き
GPT 5.5 Proは、4H Donchian Breakout / トレンドフォロー系を有力候補として抽出しました。
スライドの数値を表で押さえておきます。
| 指標 | 値 |
|---|---|
| 総リターン | +58.2% |
| 年率リターン | +3.36% |
| Sharpe | 0.403 |
| Sortino | 0.514 |
| Calmar | 0.210 |
| 最大DD | -16.0% |
| Profit Factor | 1.476 |
| 取引回数 | 120 |
| Positive fold ratio | 59.3% |
一見すると悪くない結果です。しかしGPT 5.5 Proが本当に優れていたのは、ここで戦略を採用しなかった点にあります。
決め手はベンチマーク比較でした。
| 候補 | 総リターン | 年率 | Sharpe | Calmar | 最大DD |
|---|---|---|---|---|---|
| 4H Breakout WFO | +58.2% | +3.36% | 0.403 | 0.210 | -16.0% |
| USDJPY 常時ロング | +93.9% | +4.88% | 0.562 | 0.238 | -20.5% |
| USDJPY 常時ショート | -54.2% | -5.47% | -0.562 | -0.100 | -54.7% |
| 常時フラット | 0.0% | 0.0% | n/a | n/a | 0.0% |
つまり、4Hブレイクアウト戦略はプラスではあるが、単純なUSDJPYロングに負けている。この事実からGPT 5.5 Proはこう結論づけました。
これは独立した戦略アルファというより、USDJPYロングベータをリスク管理付きで表現したものに近い。したがってライブ単独戦略としては採用しない。
この棄却判断こそ、クオンツトレードの戦略開発として最も価値のある部分です。
ロバスト性も丁寧でした。コスト感応度(0.5 / 1.0 / 2.0 pips)でSharpeが0.408→0.403→0.394とほぼ安定していること、低回転だからコスト耐性があるだけだと過大解釈していないこと。さらにMonte Carloでは、ターミナルリターン中央値+57.2%の裏で**DD>20%の確率が66.2%**という不都合な分布まで提示しています。「プラスに見えても、DD分布は居心地が悪い」という現実を隠さない姿勢です。
エンジニアリングも3モデル中で最強でした。load_data() 〜 plot_results() まで必須関数を完備し、CLI引数(入力ファイル、出力先、コスト、bootstrap回数)に対応、open-to-open約定、構造化CSV出力、図表生成、配布用zipまで揃っています。
弱点を挙げるなら、deflated Sharpe / White's Reality Check / PBO といった多重検定補正は「推奨」止まりで未実装な点、レポート例のパスが /mnt/data/... でリポジトリ相対になっていない点くらいです。
6. GPT 5.5 High:実装・候補探索は強いが、採否判断が甘い
GPT 5.5 Highは、30分足MA Crossで最も見栄えの良い候補を出しました。
数値を表で見ます。
| 指標 | 値 |
|---|---|
| 総リターン | +24.7% |
| 年率リターン | +4.10% |
| Sharpe | 0.470 |
| Calmar | 0.209 |
| 最大DD | -19.6% |
| Folds | 22 |
| Positive fold ratio | 63.6% |
| 取引回数 | 857 |
| OOS期間 | 2020-12-01 〜 2026-06-01 |
Sharpe 0.470は、3モデルの採用候補の中で最高です。実装面もかなり優秀で、必須関数の完備、CLI対応、train/validation/test分離、open-to-open次足約定、コスト感応度、Monte Carlo、ADX/ATRレジームチェックまで含まれています。
レジーム分析は特に有益でした。
| レジーム | 総リターン | Sharpe | 最大DD |
|---|---|---|---|
| ADX≧20(トレンド) | +34.7% | 0.705 | -14.5% |
| ADX<20(レンジ) | -7.5% | -0.266 | -16.4% |
| ATR≧中央値(高ボラ) | +5.5% | 0.159 | -18.3% |
| ATR<中央値(低ボラ) | +18.2% | 0.676 | -6.5% |
MA Crossがトレンド局面でしか機能せず、レンジでマイナスになるという構造をきちんと炙り出しています。
それでも2位に留まったのは、採否判断(最終的なジャッジ)が弱いからです。具体的には以下です。
- Markdown形式の最終レポートがない(最大の成果物ギャップ)
- Buy & Hold / 常時ロングとの比較が保存されていない
- ロング・ショート分解がない
- 採用した30分足データは2018年開始でOOSが2020年末〜。2021〜2024年のUSDJPY上昇レジームに強く依存している可能性が高い
- 「採用すべきか棄却すべきか」を明言していない
しかも警告サインとして、最も強い結果が最も短く切り詰められたデータ(30分足)から出ている点があります。同じsummary内の4H結果ははるかに弱く(Donchian Sharpe 0.17、MA Cross 最大DD -42.0%)、長期データほど成績が落ちている。これは「短い期間の特定レジームを拾っているのでは」という疑いを強めます。
要するに、GPT 5.5 Highは実装者・候補生成者としては優秀ですが、最終的なクオンツ判断を任せるには、ベンチマーク比較・ロングショート分解・明示的な採用/棄却結論を足してからにすべき、というのが評価です。
7. Claude Fable5:最も懐疑的で、批判的解釈は鋭い
Claude Fable5の数値結果は3モデル中で最も地味でした。
数値を表で見ます。
| 指標 | 値 |
|---|---|
| 採用候補 | H4 Donchian(ただし棄却) |
| OOS総リターン | +13.7% |
| 年率リターン | +1.0% |
| Sharpe | 0.16 |
| 最大DD | -15.3% |
| Profit Factor | 1.11 |
| Positive fold ratio | 51.9% |
| ロング寄与 | +32.3% |
| ショート寄与 | -14.5% |
| Bootstrap 損失確率 | 33.7% |
| Bootstrap DD>20% 確率 | 70.1% |
それでもFable5は、最も鋭い批判的解釈を出しました。
特に重要なのが、**「プラスの成績はUSDJPYのロングベータであり、ショート側は機能していない」**という指摘です。ロング寄与+32.3%に対してショート寄与-14.5%。トレンドフォローが本当に頑健なら、ロング・ショート両方で一定の構造的優位が見えるはずです。ショート側が崩れているなら、それは戦略アルファではなく、単に円安局面に乗っていただけの可能性が高い ―― これは非常にクオンツ的な診断です。
「ベストな戦略がプラスだった」で止まらず、「その結果は長期USDJPYマクロレジームから独立しているか?」まで踏み込めたのは、3モデルでFable5だけでした。記事を書くときの言語化としても、positive component is long beta, not an independent price-pattern edge(プラス部分はロングベータであって、独立した価格パターンのエッジではない)という表現は秀逸です。
一方で、実装面には明確な課題がありました。
- パス(
/mnt/user-data/uploads/...や/home/claude/...)がハードコードされている - CLI引数がない
- train / validation / test 分離が弱い(36か月train・6か月OOSで、明示的なvalidation窓がない)
- リターンを
close.pct_change()で計算しており、次足オープン約定の要件を満たしきれていない - 必須関数のうち
generate_signals()/plot_results()が正確な名前で揃っていない - 構造化された保存成果物がGPT勢に比べて少ない
つまりFable5は、「そのままリポジトリで再実行できる」レベルの成果物ではない。コードは読めるし思想は鋭いが、再現性で他2モデルに劣ります。
したがってFable5は、主担当の実装役ではなく、批判的レビュー役・解釈役として使うのが最適だと考えています。ただし前述のとおり、今回のFable5はskillチューニングもカスタム指示も一切ない「素」の状態です。再現性や出力フォーマットといった弱点はskillで補える性質のものが多いので、適切にチューニングすれば実装役としての評価も上がり得る、という点は付け加えておきます。
8. 本質的な発見:AIに必要なのは「戦略を作る力」より「棄却する力」
今回の実験で最も重要な発見は、3モデルともライブ運用可能なUSDJPY価格データ単独戦略を確立できなかったことです。
これは失敗ではありません。むしろクオンツトレードの戦略開発としては非常に重要な結果だと考えています。
なぜなら、価格データだけから作った単純戦略は、USDJPYの長期的な円安レジームを拾っているだけで、安定した独立アルファとは限らないからです。3モデルに共通する最強の発見は、ポジティブですらない「ネガティブだが有用な結論」でした ―― 価格のみのUSDJPY単純戦略は、対称でトレード可能なエッジではなく、ロングUSDJPYレジームを拾う傾向がある。
だからクオンツで本当に問うべきは、Sharpeの大小ではなく次の問いです。高Sharpeはあくまで入口で、そこからベンチマーク・レジーム中立性という関門を通って初めて「True Alpha」にたどり着く ―― この絞り込みの構造が下の図です。
- その戦略はBuy & Holdに勝っているか
- 常時ロングに勝っているか
- ショート側でも機能しているか
- 特定レジームに依存していないか
- 取引コストを上げても残るか
- Monte CarloでDD分布に耐えられるか
- OOS foldで安定しているか
- そもそも市場構造として説明できるか
AIの優劣も、まったく同じ観点で見るべきです。
9. クオンツトレーダー向けのAI使い分け
今回の結果から、生成AIは単体で全部任せるより、役割分担した方が良いと考えています。下のスライドが、私が想定するハイブリッド・ワークフローです。
表で整理すると以下です。
| 役割 | 向いているモデル | 所要時間 | 使い方 |
|---|---|---|---|
| 戦略開発の主担当 | GPT 5.5 Pro | 約30分 | 実験設計、WFO、レポート、最終判断 |
| 実装・候補生成 | GPT 5.5 High | 約16分 | 別戦略候補、コード生成、追加検証、短期足の挙動確認 |
| 批判的レビュー | Claude Fable5 | 約15分 | ベータ依存、過剰最適化、解釈の甘さをチェック |
時間の差は、そのまま使う場面の違いに対応します。仮説を数多く回す探索フェーズでは15〜16分で出し切るFable5・Highの速さが効き、最終的な検証パッケージを固める段では30分かけても丁寧なProが効く、という整理です。
理想的なワークフローは以下です。
- GPT 5.5 Proで標準実験(データ診断〜WFO〜ベンチ比較〜レポート)を作る
- GPT 5.5 Highで別候補・別時間足・実装案を広げる
- Claude Fable5で「これはロングベータでは?」「ショートは機能しているか?」という批判的レビューをかける
- 最後に人間のクオンツが、採用・棄却を判断する
AIに最終ジャッジを丸投げしない、というのがこのワークフローの肝です。
10. 次の実験:価格データだけでは足りない
今回の結論は、USDJPY価格データ単独では、独立した頑健なエッジを見つけるのは難しい、というものでした。
次にやるべきは、外部説明変数を加えた検証だと考えています。候補は以下です。
- 日米金利差
- 米2年債利回り
- スワップ / キャリー
- マクロイベントフィルタ
- 為替介入リスク
- 東京・ロンドン・NYのセッション効果
- 実スプレッド / スリッページ
- ボラティリティレジーム
- リスクオン / リスクオフ指標
特にUSDJPYは、価格パターンだけではなく、金利差・政策期待・介入リスク・需給を入れないと、戦略仮説として弱いままになる可能性が高いと見ています。
11. 結論:クオンツに最適な生成AIとは、良い結果を出すAIではなく、良い結果を疑えるAIである
「どれが最適か」という今回の問いに対する答えは、総合ではGPT 5.5 Proでした。理由は、単にコードが良いからではありません。良いバックテスト結果が出ても、ベンチマークに負けていれば棄却し、価格データ単独の限界を認めたからです。
ただし、「最適なAIは1つ」とは言い切れない、というのがより正確な結論です。工程ごとに最適解は変わります。
- GPT 5.5 Pro:実験設計・WFO・レポート・最終判断まで一貫。主担当に最適。
- GPT 5.5 High:実装力が高く候補生成に強い。実装・候補出しに最適(最終判断は人間が補う)。
- Claude Fable5:批判的な市場解釈に強い。レビュー役に最適。
すでにAIを使っている前提で「どれが最適か」を問うなら、答えは1モデルへの一本化ではなく、工程ごとの使い分けになります。そして使い分けを評価するときの基準は、今後こう変わるべきだと考えています。
どのAIが一番高いSharpeを出したかではない。
どのAIが、バックテストの嘘を見抜けるかである。
総括:今回の試験は「推論の強さ」が効く設計だった
最後に、筆者としての本音を書いておきます。
そもそもFable5の特質は、コーディング能力の強さにあると考えています。一方で今回の試験は、データ診断・WFO設計・ベンチマークによる偽陽性判定・「採用か棄却か」の市場仮説に基づく判断 ―― つまりコードを書く力よりも、推論し判断する力が有利になる設計でした。WFOやベンチマーク比較に重い配点を置いた時点で、推論・判断の比重が大きいテストになっています。
なので今回の順位は、Fable5の本来の強みであるコーディング力をフルに測ったものではない、という点は割り引いて読むべきです。前述のskill非チューニングの件と合わせれば、条件次第でFable5の立ち位置は変わり得る、というのが公平な見方です。
そのうえで、筆者個人の現時点での実運用スタンスはこうです。
- クオンツ関連でのFable5は、当面「様子見」。理由の一つはコストです。クオンツトレードの戦略開発は試行回数を多く回すので、コストは無視できない判断材料になります。
- したがって当面は、コーディングは Codex、戦略開発の主担当は GPT 5.5 Pro を中心に回していく予定です。
- Fable5は、批判的レビュー役として要所で使いつつ、skillチューニングやコスト面の状況を見ながら、改めて評価し直したいと考えています。
これは「Fable5が劣るから使わない」という結論ではありません。自分の用途(クオンツトレードの戦略開発)・コスト・現時点の使い込み状態を踏まえた、実務上の選択です。テストの設計が変われば、そしてチューニングを揃えれば、この選択も変わり得ます。
付録:データ・プロンプト・生成AI出力(GitHub)
今回の実験で使ったテストデータ、プロンプト全文、3モデルそれぞれの生成AI出力(コード・CSV・図表・レポート)は、すべて以下のリポジトリの lab_9 に保存しています。
リポジトリ: https://github.com/tikeda123/article_lab (lab_9 配下)
lab_9 には、おおよそ次のものが入っています。
-
inputdata/… USDJPYの時系列データ(30分足 / 60分足 / 240分足)とプロンプト本文(prompto.md) -
gpt5_5pro/… GPT 5.5 Proの出力(WFOコード、各種CSV、図表、USDJPY_report.md、配布用zip) -
gpt_5_5_high/… GPT 5.5 Highの出力(WFOコード、fold別CSV、コスト/レジーム/Monte Carlo出力、図表) -
fable5/… Claude Fable5の出力(コード、fold結果CSV、図表、レポート) - 各モデルの評価レポート(
AI_EVALUATION_REPORT_*.md)と総合サマリ(AI_MODEL_EVALUATION_SUMMARY.md)
プロンプトの概要
プロンプトの完全版はリポジトリの prompto.md にありますが、要点だけ書いておくと、AIに要求したのは「壊れにくい戦略を作り、ダメなら正直に棄却すること」です。具体的には次の固定条件を課しています。
- 対象/データ:USDJPYの価格データ(OHLC、volumeがあれば使用)、時間足はデータから推定
- リーク禁止:シグナルは過去データのみから計算し、約定はシグナル発生後の次足で行う
- コスト:往復1.0 pipsを基準に、0.5 / 2.0 pipsの感応度も確認
- 戦略の幅:トレンド / ブレイクアウト / 平均回帰 / ボラフィルタ / レジーム判定をシンプルな形で比較(複雑なMLは避ける)
- WFO:時系列順を守り、train / validation / test を分離。各foldのOOS成績と、その平均だけでなくばらつきも評価
- 評価指標:総/年率リターン、Sharpe、Sortino、Calmar、最大DD、勝率、PF、取引回数など一式
- ロバスト性:パラメータ感応度、Monte Carlo / block bootstrap、最大DD分布、CVaR、資金毀損確率
- ベンチマーク:Buy & Hold、常時ロング、常時ショート、常時フラット、単純MA戦略との比較
-
必須関数:
load_data()/validate_data()/create_features()/generate_signals()/backtest()/walk_forward_optimization()/evaluate_performance()/robustness_check()/plot_results() - コード要件:pandas / numpy / matplotlib / scipy / scikit-learn 中心。TA-Libなど導入困難な外部ライブラリは不使用、そのまま実行可能な形
- 最終判断:バックテストが良いだけではエッジと認めず、市場仮説と結びつけて説明。採用可能かどうかを厳しめに判定し、エッジがなければ「見つからない」と結論づける
再現実験をする場合は、次足オープン約定とベンチマーク比較を必ず固定条件にしておくことをおすすめします。この2つを外すと、ロングベータをアルファと誤認しやすくなります。












