概要
Google の自動運転部門である Waymo が発表した論文の紹介です。
Scaling Laws of Motion Forecasting and Planning A Technical Report
https://arxiv.org/abs/2506.08228
自動運転やロボットの分野においても、LLM と同様のスケーリング則が成り立つことを示しています。
はじめに、論文の内容、続いて Reddit での議論を紹介します。
論文
論文の概要
この論文は、自動運転の核心技術である動作予測と計画において、大規模言語モデル(LLM)で見られるような**「スケーリング則(Scaling Laws)」**が成り立つかどうかを実証的に研究したものです。Waymoが持つ約50万時間分という膨大な運転データセットを用いて、エンコーダー・デコーダー型のTransformerモデルの性能が、計算リソース(Compute)、モデルサイズ、データセットサイズをスケールさせることでどのように向上するかを分析しています。
主な発見は以下の通りです。
- トレーニングのスケーリング則: モデルの性能(損失関数の値)は、トレーニングに使用する計算量が増えるにつれて、予測可能なべき乗則に従って向上します。
 - 最適なスケール配分: 最適な性能を得るためには、モデルサイズをデータセットサイズの約1.5倍の速さで大きくする必要があることを発見しました。これはLLMとは異なる傾向です。
 - クローズドループ性能との相関: 最も重要な発見の一つとして、オフラインの指標(オープンループ評価)だけでなく、実際のシミュレーション環境での性能(クローズドループ評価)もスケール則に従って向上することを示しました。これは、データと計算量を増やすことが、より安全で有能な自動運転車の開発に直接つながることを示唆しています。
 - 推論時のスケーリング則: トレーニングだけでなく、推論時(実行時)の計算量を増やす(=多くの未来軌道をサンプリングする)ことでも性能が向上しますが、ある点を超えるとより大きなモデルを使う方が効率的になるというトレードオフを明らかにしました。
 - 他車からのスキル転移: 自車の専門的な運転データだけでなく、周囲を走行する他車の軌道データから学習することでも、自車の運転性能(Ego-agent performance)が向上することを定量的に示しました。
 
以下、論文の構成に沿って各章を詳しく解説します。
1. 導入 (Introduction)
- 背景: 動作予測(他の車両や歩行者の未来の動きを予測)と計画(自車の安全で快適な軌道を決定)は自動運転の中核機能です。このタスクは、他者の行動の不確実性や複雑な相互作用のため非常に困難です。
 - 研究の動機: 近年、LLMの分野ではモデル、データ、計算量をスケールさせることで性能が劇的に向上することが「スケーミング則」として知られています。この経験則が、物理世界と相互作用するロボティクス、特に自動運転の領域でも通用するのかは明らかではありませんでした。
 - 
本研究の問い:
- 学習のスケーリング則: 損失関数はモデルサイズやデータ量を増やすとどうスケールするか?最適なモデルとデータのスケール比は?
 - クローズドループのスケーリング則: シミュレーション環境での性能もスケールするか?大きなモデルはより安全なドライバーになるか?
 - 推論のスケーリング則: 推論時の計算量を増やすと性能はどう変わるか?小さなモデルでも多くのサンプリングをすれば大きなモデルに匹敵できるか?
 - 他車からのスキル転移: 他車の運転ログ(受動的なデータ)から学習することで、自車の性能は向上するか?
 
 
2. 動作予測モデリング (Motion Forecasting Modeling)
- 
問題設定: 過去数秒間のシーン情報(道路形状、信号、他車の履歴など)を入力とし、興味のある複数のエージェント(自車、他車、歩行者など)の未来の動作(軌道)を出力する条件付き系列生成問題として定式化します。
 - 
モデルアーキテクチャ (図1):
- モデルはエンコーダー・デコーダー型のTransformerで構成されます。
 - Scene Encoder: 道路形状(Road Graph)、交通信号(TLS)、エージェントの過去の軌道(History)といった多様な入力を受け取り、シーン全体の文脈を表現する埋め込みベクトルを生成します。
 - Motion Decoder: Scene Encoderからの出力を参照しながら、未来の動作トークン(離散化された動きの単位)を自己回帰的に(一つずつ順番に)生成します。これにより、複数のエージェントの未来の軌道が同時に生成されます。
 
図1はモデルの構造を示しています。左のScene Encoderがシーン情報を処理し、右のMotion Decoderが未来の行動(Actions)を生成します。
 
3. データセット (Dataset)
- 
規模と質 (表1): 本研究の強みである巨大なデータセットについて説明しています。
- 運転時間: 約44.7万時間 (論文内では約50万時間と要約)
 - 走行距離: 560万マイル
 - トレーニングサンプル数: 5.41億
 - これは人間のドライバーによる運転デモンストレーションデータであり、自動運転システムによる走行データは含まれていません。質の高い教師データを用いています。
 
表1: データセットの統計
 
| データ項目 | 値 | 
|---|---|
| 走行セグメント数 | 5980万 | 
| エージェント数 | 3730億 | 
| 運転時間 | 44.7万時間 | 
| 走行距離 | 560万マイル | 
| トレーニング例の数 | 5.41億 | 
4. スケーリング則 (Scaling Laws)
この章が本研究の核心部分です。
- 
最適なモデルとデータのスケーリング (図2, 3, 4)
- 目的: 限られた計算予算(FLOPs)の中で、損失を最小化するための最適なモデルサイズ(パラメータ数N)とデータサイズ(D)の組み合わせを見つけること。
 - 
図2: トレーニング損失 対 計算量(FLOPs)
- 横軸が計算量、縦軸がトレーニング損失です。計算量を増やすと、どのモデルサイズ(色の違い)でも一貫して損失が低下するべき乗則が観測されます。
 
 - 
図3 & 図4: 最適なモデル・データサイズの決定
- 図3は、同じ計算量(iso-FLOP)の条件下で、モデルサイズ(左)やデータサイズ(右)を変化させたときの損失を示します。U字型の曲線は、各計算量において損失を最小にする最適なモデル/データサイズが存在することを示しています。
 - 
図4は、この最適点(U字の底)をプロットしたものです。これにより、最適なモデルサイズ 
N_optとデータサイズD_optが計算量Cに対してどのようにスケールするかがわかります。 - 結果は 
N_opt ∝ C^0.63,D_opt ∝ C^0.44となり、モデルサイズはデータサイズの約1.5倍の速さでスケールさせるべきという結論が得られました。これは、LLMがより大きなモデルを必要とするのとは対照的で、自動運転タスクはより多くのデータを必要とすることを示唆しています。 
 
図4は、計算量(FLOPs)が増えるにつれて、最適なモデルのパラメータ数(左)と学習に使うデータ量(右)がべき乗則に従って増加することを示しています。
 - 
損失のスケーリング (図5, 6)
- 
図5: 最適化されたモデルの損失(L_opt)自体も、計算量
Cに対してべき乗則 (L ∝ C^-0.026) に従って減少することを示しています。これは性能向上が予測可能であることを意味します。 - 図6: エージェントの種類(自車、他車、歩行者、自転車)ごとに損失を分析。自車(AV)の予測が最も簡単(損失が低く、改善の傾きが緩やか)であることが示されています。
 
 - 
図5: 最適化されたモデルの損失(L_opt)自体も、計算量
 
5. 評価 (Evaluation)
トレーニング時の損失低下が、実際の運転スキル向上に繋がるかを検証します。
- 
オープンループ評価 (図7, 8, 9): モデルの予測をオフラインで評価します。
- 図7: 予測精度を示す指標(minADE, wADE)も、トレーニング計算量の増加に伴いべき乗則的に改善することを示しています。損失の低下が、より正確な予測に繋がっている証拠です。
 - 
図9 (事前知識の画像に対応): モデルサイズによる質的な違いを示します。
- 左は小さいモデル、右は大きいモデルの予測です。
 - 大きいモデルは、より多様で現実に即した軌道(青/緑の線)を生成しており、実際の軌道(赤の点線)をより良く捉えています。
 
 
 - 
クローズドループ評価 (図10、事前知識のグラフ右に対応): シミュレーション環境でモデルを動かし、その結果を評価します。
- これは本論文の非常に重要な貢献です。
 - 指標は失敗シナリオの数(η)です。衝突やルートから大きく外れるなどが含まれます。
 - 図10: トレーニング計算量を増やすと、シミュレーションでの失敗の数がべき乗則に従って減少することを示しています。
 - これは、「モデルをスケールさせることが、より安全で有能な自動運転エージェントに繋がる」という強力な証拠です。
 
図10は、学習の計算量(FLOPs)が増えるにつれて、シミュレーションでの失敗回数(η)がべき乗則に従って減少することを示しており、スケールアップが実際の運転能力向上に直結することを示唆しています。
 
6. 推論のスケーリング則 (Inference Scaling Laws)
- 目的: 推論時(実行時)に計算量を増やす(=多くの未来軌道をサンプリングする)ことで性能がどう変わるかを分析します。
 - 
図11, 12:
- 同じモデルでも、サンプリング数を増やす(推論FLOPsを増やす)と、予測精度(minADE)や網羅性(mAP)が向上します。
 - しかし、その向上には限界があり、ある**「クロスオーバーポイント」**を超えると、より大きなモデルを少しサンプリングする方が計算効率が良くなります。
 - これは、運転シナリオの難易度に応じて、推論に使う計算リソースを動的に変える適応的な戦略が有効であることを示唆しています。
 
 - 図13: 同じモデルでサンプリング数を16から1024に増やしたときの質的な違いを示しています。サンプリング数を増やすことで、より現実的な軌道の多様性が捉えられているのがわかります。
 
7. 他車からのスキル転移 (Cross-agent Skills Transfer)
- 
目的: 自車の専門的な運転データ(Demonstrated miles)だけでなく、周囲を走る他車のデータ(Observed miles)から学習することが有効かを検証します。
 - 
図14:
- 自車データを含む8エージェントで学習したモデル(青線)と、自車データを含まず他車データのみで学習したモデル(橙線)の性能を比較。
 - 他車データのみでも、ゼロショット(追加学習なし)で自車の運転タスクにある程度汎化し、性能もスケール則に従って向上しています。
 
 - 
図15:
- データ等価性: 同じ性能(同じ損失値)を達成するために、自車データと他車データがそれぞれ何マイル必要かを比較。
 - 結果として、おおよそ 10マイルの他車データが、2〜3マイルの自車データに相当することが示されました。これは、受動的に収集できる膨大な他車データが、モデル性能向上に大きく貢献できることを意味し、データ収集戦略において非常に重要な知見です。
 
図15右は、同じ性能を達成するための自車データ(Demonstrated Miles)と他車データ(Observed Miles)の必要量を示しており、他車データ10マイルが自車データ2-3マイル分に相当することを示しています。
 
9. 議論と結論 (Discussion)
本研究は、自動運転における動作予測・計画タスクが、LLMと同様にスケーリング則に従うことを包括的に示しました。
- 
発見のまとめ:
- 性能はべき乗則に従って予測可能に向上する。
 - オープンループ評価の向上が、最も重要なクローズドループでの性能向上に直結する。
 - 最適なモデルはLLMより小型だが、より多くのデータを必要とする。これはオンボードシステムへの実装において有利(低遅延)。
 - 推論時の計算量も性能向上のための重要な軸である。
 - 他車からの学習は、データ収集の課題を解決する有望なアプローチである。
 
 - 
将来への示唆:
- これらの知見は、研究者が自信を持ってデータとモデルをスケールアップさせ、自動運転車の性能を継続的に向上させるための道筋を示しています。
 - ロボティクス全般の計画タスクにも応用可能であり、データ駆動型AIのさらなる発展に寄与する重要な一歩と言えます。
 
 
OP(Original Poster)の主張:
OPは、Waymoの論文が示す「AV分野でもデータと計算能力の増加に伴って性能が対数線形に向上するスケーリング法則が成り立つ」という発見は、自動運転業界におけるパラダイムシフトの可能性を秘めていると主張しました。
- これはLLMs(大規模言語モデル)の進化で学ばれた「苦い教訓」(小さなモデルをエッジケースに合わせて微調整するのではなく、より大きなモデルをより多くのデータと計算能力で訓練すれば、問題のほとんどが解決する)と類似している。
 - かつてのWaymoは「小さなモデルを微調整する」アプローチで、これは2019年以前のLLMsの状況に似ている。
 - もしAVでもこの法則が当てはまるなら、競合他社は単に多くのGPUとデータを投入することで、Waymoが培ってきた長年のリードを覆せる可能性がある。
 - Teslaは既にこの「苦い教訓」を理解し、Waymoよりはるかに大きな訓練用GPUクラスタと、1000倍ものデータ収集車両を保有している。
 - Waymo自身がこの論文を公表した以上、AV分野で「GPT-3モーメント」(大転換期)が訪れ、Teslaが優位に立つ可能性があるとOPは予測した。
 - Waymoは5年前に動くべきだったが、次に良いのは「今」だと述べた。
 
コメントセクションの主な反論:
OPの主張に対しては、多くのユーザーから誤解や誤った前提に基づいているという指摘が相次ぎました。
- 
論文解釈の誤り:
- 既知の知見の検証: Waymoがスケーリング法則を「今更発見した」わけではなく、長年直感的に知られていた法則を実際のデータで検証し、最適なモデルサイズや計算資源の割り当て(データとモデルパラメータのバランス)を明らかにするのが目的だと指摘されました。
 - LLMとの相違点: 論文は、AVにおける最適なモーション予測モデルがLLMよりも「約50倍小さいパラメータ数である」と示唆しており、LLMのような単純な巨大モデル化が必ずしも最適ではないことを示しています。スケーリングには逓減効果があり、無限にデータを増やせば良いというわけではありません。
 - Waymoのアプローチの妥当性: 論文はむしろ、Waymoがこれまで採用してきた「ライトサイズ」なモデルアプローチが、コストパフォーマンスの観点から適切である可能性を示唆していると解釈されています。
 
 - 
Waymoの現状と技術スタックへの誤解:
- 洗練されたアーキテクチャ: Waymoは「小さなモデル」を使っているのではなく、多数のモデルを組み合わせた複合的なAIシステムであると説明されました。
 - 豊富なシミュレーションデータ: OPの「少量のシミュレーションデータ」という主張は誤りであり、Waymoは数年前からシミュレーションで膨大な量の走行データを生成・活用しています。
 - 計算能力の優位性: Waymoの親会社であるGoogleの計算能力はTeslaをはるかに凌駕しており、TeslaがWaymoより大きなGPUクラスタを持つというOPの主張は疑問視されました。
 - 発表時期の意図: 企業が研究を公表するのは、既にその知見を自社製品に応用し、競争優位を確立した後である可能性が高いと指摘されました。
 
 - 
Teslaの「データ優位性」の否定:
- データの質の問題: Teslaはデータ量は多いものの、センサー構成がWaymoと異なり(LidarやRadarがない)、収集されるデータの質が低いと批判されました。「ゴミを入れればゴミが出る」(Garbage in, Garbage out)という原則が強調されました。
 - データの冗長性: Teslaが顧客から収集するデータの多くは冗長であり、価値のある「ロングテール」な異常ケースデータはごく一部であると指摘されました。
 - 計算能力の不足: Teslaはデータが多くても、それを十分に活用できるだけの計算能力が常にあったわけではないと指摘があり、WaymoはGoogle Cloudを利用して常に十分な計算資源を確保しているという違いが挙げられました。
 
 - 
LLMと自動運転の根本的な違い:
- 安全性の重要性: LLMが間違った答えを出しても比較的影響が小さいのに対し、自動運転は人命に関わるため、わずかな間違いも許されないという本質的な違いが強調されました。
 - ドメイン特異性: データは単なるコモディティではなく、各ドメインにおいて価値のあるデータは異なり、LLMのように単純なスケーリングが全ての問題を解決するわけではないと主張されました。都市での複雑な乗り降りなど、Waymoが持つ特定のユースケースのデータはTeslaには不足している可能性があります。
 
 - 
その他の批判:
- OPは、複数のTesla関連サブredditで投稿・コメントしており、Tesla投資家として偏った見方をしている可能性が指摘されました。
 - Waymoは既にL4レベルの自律走行を商業展開しており、事故報告によれば人間の運転手よりもはるかに安全であるという客観的な事実が提示されました。
 
 
結論として、ディスカッションの大部分は、OPの主張する「Waymoの論文が示すスケーリング法則は、TeslaにWaymoのリードを追い抜く機会を与える」という見解に対し、その前提となるWaymoの技術、Teslaのデータ、そしてAVとLLMの根本的な違いについての理解が誤っているという反論で占められました。多くのユーザーは、Waymoが既に論文で示された知見を実践しており、そのリードは一朝一夕には揺るがないと考えているようです。