行動提案AIの現在地と今後の戦略整理(A / B / C ルート)
本記事は、プレイ画面解析による 行動提案AI を開発する中で、
- 今、自分はどこまで来ているのか
- これから、どの方向に進めばよいのか
を整理するための 設計メモ兼ロードマップです。
※ 特定のゲーム名・固有名詞は避け、一般化した表現を用います。
1. プロジェクトの現在地
本プロジェクトでは、以下のパイプラインがすでに実装・運用されています。
プレイ動画
↓
イベントログ(時刻・操作)
↓
状態フレーム生成(ROI / state)
↓
学習データ(state, action)
↓
行動提案モデル(Top-k)
すでにできていること
- 画面からの 状態抽出(手札UI / 盤面 / リソース)
- 行動ラベル付きデータセットの自動生成
- 行動分類モデルによる Top-k 提案
- 手札制約・コスト制約などの 安全マスク
- 実時間での推論パイプライン
ここまでで、
「動く行動提案AIの土台」
は完成しています。
2. 次の分岐点:A / B / C の3ルート
この段階から、プロジェクトの進め方は大きく3つに分かれます。
| ルート | 目的 | 本質 |
|---|---|---|
| A | プロっぽく見えるAI | 判断の一貫性・先読み・説明性 |
| B | 勝率を上げるAI | 期待値・因果・報酬設計 |
| C | 研究として完成させる | 再現性・評価・一般化 |
どれも正しいですが、進め方と難易度がまったく異なります。
3. Aルート:まず「プロっぽく見えるAI」を作る
ゴール
- 人間が見て「うまい」「分かっている」と感じる
- 破綻した提案をしない
- 少し先を読んだ 予告型の提案が出る
特徴
- モデル自体を大きく変えない
- 推論後処理(再ランキング・理由付け)が中心
- 数日〜1週間で体感が変わる
具体的にやること
-
Top-k(3〜5)候補を必ず出す
-
各候補に 理由タグを付ける
- 危険 / レーン圧 / リソース / 回転 / 待ち など
-
提案はすべて 未来時刻(例:+0.8秒)
-
ルールは却下ではなく 減点方式
評価軸
- 明らかに変な提案が減ったか
- 理由が毎回ブレていないか
- 人間が「構え」を作れるか
Aは「賢くする」より「納得させる」ルート
4. Bルート:勝率を上げるAIを目指す
ゴール
- 試合全体の期待勝率を上げる
- 負け筋を減らし、勝ち筋を通す
特徴
- 難易度が高い(研究寄り)
- ログ量・評価設計が重要
- 成果が出るまで時間がかかる
中核になる要素
- 被弾リスク(danger)検知
- 相手リソースの推定
- 攻め時 / 受け時の判定
- 短期報酬による評価
進め方の鉄則
- いきなり勝敗を学習しない
- まず 負け筋を潰す
- Safety layer + EV再ランキング
Bは「正解を当てる」のではなく「期待値を積む」ルート
5. Cルート:研究として完成度を高める
ゴール
- 何が効いたかを説明できる
- 再現性のある実験結果を出せる
- 別条件でも壊れにくい
特徴
- 最も地味で、最も重い
- 実験基盤づくりが最優先
- 論文・技術記事向け
必須要素
- データリークのない split 設計
- 複数評価指標(Top-k / 破綻率 / invalid率)
- ベースライン比較
- アブレーション(1変数ずつ)
Cは「作る」より「測る」ルート
6. 難易度と時間感覚の比較
| 観点 | A | B | C |
|---|---|---|---|
| 実装難易度 | 低 | 高 | 中 |
| 思考負荷 | 低 | 高 | 高 |
| 成果まで | 早い | 遅い | 遅い |
| 失敗コスト | 低 | 高 | 中 |
多くの場合、
A → B → C
の順で進めるのが現実的です。
7. 今後の戦略(結論)
現状の到達点を踏まえると、最適な戦略は以下です。
-
Aルートで「プロっぽい提案AI」を完成させる
- 判断軸の固定
- 予告型UI
- 破綻の除去
-
そのログ・失敗例を観察する
-
勝率に効きそうな要因だけを Bとして切り出す
-
必要になった段階で Cとして評価・一般化する
8. おわりに
このプロジェクトは、
行動提案という人間的な判断を、
画像・状態・時間の制約下でどう再現するか
というテーマを、
実装ベースで真正面から扱っている点に価値があります。
まずは「プロっぽく見えるAI」を完成させ、
その上で勝率・研究へと段階的に進める。
それが、最も確実で、最も楽しいルートです。