はじめに
ドライブレコーダーの映像から、数秒後の未来に起こる「事故」を予測する。
そんな極めて難易度の高いタスクに挑むKaggleコンペティション、Nexar Dashcam Crash Prediction Challenge が開催されました。自動運転車やADAS(先進運転支援システム)の安全性向上に直結するこのタスクですが、本コンペの最大のポイントは「可能な限り早期に、かつ正確に予測すること」です。ただ事故が起きるか否かを当てるだけでなく、危険の予兆をいち早く察知するほどスコアが高くなるという、実世界のシビアな条件が反映されていました。
本記事では、このコンペティションの概要を振り返りつつ、上位入賞者たちの解法を簡単にまとめます。
今回非常に面白かったのは、上位陣のアプローチが「データ品質を極限まで高めるアプローチ」「巨大な動画基盤モデルで時空間を制圧するアプローチ」「古典的CV(YOLO+光学フロー)とCNNの融合」と、見事に全く異なる技術的アプローチへと分岐したことです。今後のAI開発において非常に学びの多い事例となっています。
想定読者
- Kaggleなどのデータ分析コンペに参加している、または上位解法に興味がある方
- コンピュータビジョン(動画分類・物体検出・セグメンテーション)に関わる機械学習エンジニア
- 自動運転技術やADAS(先進運転支援システム)の開発に携わるエンジニア・研究者
コンペティション概要とデータセット
自動運転車両やADASが直面する最大の課題は、実世界における「不確実性」のリアルタイム処理です。本コンペは、「より早く危険を察知し、誤報を最小限に抑えること」がスコアに直結するという、実際のADAS製品開発におけるシビアなトレードオフをそのまま反映した設計となっています。
データセットの構造
提供された学習データは、高品質な時間的アノテーションが付与された1,500件の動画(各約40秒)です。
| イベントタイプ | サンプル数 | 詳細な状況と特徴 |
|---|---|---|
| Non-Collision (正常運転) | 750 | 事故やニアミスが一切発生しない、日常的な運転映像。多様な天候やシーンが含まれる。 |
| Collision (衝突) | 400 | 実際に他車両や障害物との物理的な衝突が発生した決定的な映像。 |
| Near-miss (ニアミス) | 350 | 事故には至らなかったものの、急ブレーキや急ハンドル等によって間一髪で危険が回避された状況。 |
重要なポイント:衝突(Collision)だけでなく、ニアミス(Near-miss)も「潜在的な事故(Positiveサンプル)」として扱われる点です。テストデータは事故発生の0.5秒前、1.0秒前などで意図的にトリミングされており、「現在までのコンテキストのみから未来の危機を推論する」能力が試されました。
評価指標
このコンペを並の動画分類タスクと一線を画すものにしているのが、独特な評価指標(Metrics)です。「事故か否か」だけでなく「いつ予測できたか」が問われます。
アノテーションは以下の3つの区間に分割されています。
- 事故前区間(Before accident interval): 動画開始から「アラート時間」まで。ここで警告を出すと「早すぎる警告(偽陽性)」としてペナルティ。
- アラート区間(Alert interval): アラート時間から「事故発生時間」まで。予測モデルが真価を発揮すべき唯一のウィンドウ。
- 事故後区間(After accident interval): 衝突発生後から動画終了まで。ここでの予測は「手遅れ」であり無価値。
評価は、事故までの残り時間(500ms前、1000ms前、1500ms前)という3時点におけるPR(Precision-Recall)曲線を計算し、その平均値(mAP)で算出されます。早期予測の感度向上と誤警報の抑制というジレンマを見事に表現しています。
上位解法のアプローチ
上位陣は、全く異なるアプローチを採用していました。
第1位:100%データ中心(Data-centric)アプローチの極致
第1位は、モデル構造の変更を一切行わず、「データの精製と重み付け」だけでスコアを劇的に引き上げました。
-
ベースモデル: 比較的小規模な
mvit_v2_s。 - 事故後映像の完全排除: 衝突後のカオスな映像は早期予測のノイズになるため、学習データから完全に削除。
- 徹底的なエラーデバッグ: 埋め込み空間を分析し、人間が見て「主観的には危険だが何も起きていない」曖昧なシーンを手動で削除。
- 洗練された重み付け戦略: ターゲット漏洩を防ぐため、衝突直前(0.25秒前)のフレームを削除し、モデルに「早期シグナル」を強制的に注視させました。さらに、アラート区間のフレームには30倍の重み付けを実施。
量より質がAIの限界を突破することを証明した、圧倒的なアプローチです。
第2位:VideoMAEv2-giantによる強力な時空間モデリング
第2位のアプローチは、最先端の大規模事前学習済みビデオトランスフォーマーの表現力を最大限に引き出す、強力な「Model-centric」な解法でした。
-
ベースモデル:
VideoMAEv2-giant - 時空間の制圧: オプティカルフローを明示的に与えずとも、Self-Attention機構を通じて複数フレーム間のパッチの移動から「暗黙的に」運動ベクトルを学習。
- 高い汎化性能: Kinetics等の巨大データセットによる事前学習を活用し、未知の天候や複雑な照明環境に対しても極めてロバストな特徴表現を獲得しました。
第3位:「2フレームあれば十分」画像分類への鮮やかな変換
第3位の解法は、「オランダの運転免許の学科試験(1枚の画像を見て危険予測の選択肢を選ぶ)」から着想を得た、非常にシンプルかつ洗練されたCNNベースのアプローチです。「人間が1枚の画像から事故を予測できるなら、CVモデルにもできるはずだ」という仮説に基づき、計算コストの高い動画モデルを避け、タスクを画像分類に変換しました。
- 特徴量抽出とマスク処理: 不要な背景から間違った相関を学習しないよう、YOLO-v8を用いて車両のセグメンテーションマスクを抽出。さらに、OpenCVのFarneback法を用いてフレーム $t$ と $t-3$ (0.1秒差)からオプティカルフローを計算し、車両の「位置」「方向」「速度」を特定します。
- Dual CNNアーキテクチャ: ImageNetで事前学習済みのResNet18を2つ並列で使用。1つはマスクとフローを入力とし、もう1つはマスク処理されたRGB画像(背景が黒)を入力とします。
- 推論時の工夫: 推論時は、直近の3フレームの予測値を加重平均(直前: 50%, 2つ前: 30%, 3つ前: 20%)して安定させ、2モデルのアンサンブルで高スコアを叩き出しました。
第4位:YOLOセグメンテーションによる古典と深層学習の融合
第4位の解法は、「衝突の大部分は『車対車』で発生している」という強力なドメイン知識に基づいた、ユニークなアプローチです。
-
3つのモダリティの統合:
- YOLOで抽出した「車のRGB画像」
- 単眼カメラからの「深度マップ(距離)」
- ピクセルの動きを示す「光学フロー(動き)」
- Vertical Stack(縦積み): これら3つの画像を空間的に「縦に結合」して1枚の縦長画像とし、標準的な分類モデルに入力。
人間が持つドメイン知識を明示的なバイアスとしてデータに注入することで、単一モデルで極めて高いスコアを達成しました。
1位と2位を分けたベースモデルの差
1位と2位のアプローチは、選択したベースモデルのサイズ感およびソリューション設計思想が完全な対極にありました。
- 1位が選んだ「mvit_v2_s」 (Multiscale Vision Transformers v2 - Small)
CNNのように階層的に解像度を下げながら特徴を抽出する、計算効率と表現力を両立した軽量モデルです。1位の勝因は、このモデルの「学習・推論の速さ」を活かし、モデルが間違えた箇所を人間が確認し、データを修正して再学習させるというイテレーション(試行錯誤)を高速で何度も回したことにあります。
- 2位が選んだ「VideoMAEv2-giant」
パラメータ数が10億(1B)を超える、動画理解タスクにおける超巨大基盤モデルです。入力動画の大部分をマスクして元動画を復元させる過酷な事前学習(Masked Autoencoder)を経ており、物理法則や時系列のダイナミクスを内部的に深く理解しています。2位の勝因は、人間がオプティカルフローなどを計算して教えなくとも、Attentionの仕組みだけでピクセルの動きから衝突の予兆を勝手に学習してしまうという「暴力的なまでの表現力」でタスクをねじ伏せたことにあります。
本コンペティションがもたらすインサイト
これらの解法から、実際の自動運転やADAS領域におけるAI開発への重要な示唆が得られます。
-
エッジコンピューティングの制約と現実解:
車載デバイスの厳しい計算資源の制約を考慮すると、第1位の「軽量モデル × 極限まで高品質化されたデータ」や、第3位の「事前学習済み軽量CNN × 効率的な情報圧縮」の組み合わせは、最も投資対効果の高い現実的な戦略です。 -
「ニアミス」データの価値の再定義:
ノイズの多い衝突データよりも、純粋な「危険に至るプロセス」が記録されたニアミスデータこそが、最高の学習教材になります。フリートから日常的に収集されるニアミスデータが、今後の基盤モデルのコアとなるでしょう。 -
暗黙的学習(Transformer) vs 明示的バイアス(YOLO+Flow):
第2位のように巨大モデルに全てを委ねるアプローチがある一方で、計算資源が限られた状況や未知のコーナーケースに対しては、第3位・第4位のように明示的な物体検出と物理量を統合するアプローチが極めて強力です。今後は、軽量な物体検出で領域を絞り、そこだけを処理するハイブリッドアーキテクチャが有望視されます。
おわりに
「Nexar Dashcam Crash Prediction Challenge」は、単なる事後的な動画分類を超え、数秒先の危険の予兆を捉える「早期予測」の難しさと面白さが詰まったエキサイティングな大会でした。
データの質で勝利した1位、巨大基盤モデルの力を見せつけた2位、タスクを鮮やかにシンプル化した3位、そしてドメイン知識を見事に具現化した4位。これらの知見が、交通事故ゼロ社会の実現に向け、大きな駆動力となることを願っています。