はじめに
自動運転AIの開発において、
「結局、どのくらい安全で賢いの?」を数値化することは非常に重要です。
現在はnuScenesというデータセットが事実上の標準となっており、
そこでの評価指標を理解することは、最新の自動運転技術を理解することに直結します。
本記事では、認識から判断まで主要な評価指標を噛み砕いて解説します。
1. 物体検出(3D Object Detection)
AIが正しく”見えているか”を判断する指標です。
カメラやLiDARのデータから「周囲の状況」をどれだけ正確に把握できているかを測っています。
LiDARデータとは、、、
レーザー光を照射し、その反射から得られた「周囲の形や距離を表す3次元の点の集まり(点群データ)」のことです。
mAP (mean Average Precision)
検出の見逃しの少なさと空振りの少なさを測る、最も基本的な指標です。
値が高いほど性能が高いです。
nuScenesでは、予測位置と実際の位置の中心距離で正誤を判定します。
具体的には、0.5m、1.0m、2.0m、4.0mという4つの距離閾値それぞれでAPを計算し、その平均を取ります。
例えば、閾値2.0mの場合:
- 予測位置と実際の位置が2.0m以内 → 正解
- 2.0mより離れている → 不正解
として、すべての閾値での精度を平均化します。
5つのTP誤差指標 (True Positive Metrics)
mAPで「正解」とみなされたものに対し、さらに細かく「どのくらいズレているか」を評価します。
値が低いほど性能が高いです。
| 指標 | 意味 | 具体例 |
|---|---|---|
| mATE (mean Average Translation Error) | 中心位置のズレ | 車の位置が実際より30cm横にズレている |
| mASE (mean Average Scale Error) | 大きさのズレ | 軽自動車を大型トラックのような大きさで描いている |
| mAOE (mean Average Orientation Error) | 向きのズレ | 車が北を向いているのに、北北東向きだと誤認している |
| mAVE (mean Average Velocity Error) | 速さのズレ | 時速40kmで走る車を、時速30kmと見積もっている |
| mAAE (mean Average Attribute Error) | 状態の判定ミス | 走行中の車を「駐車中」と間違えて認識している |
NDS (nuScenes Detection Score)
上記のmAPと5つの誤差指標を、重み付けして合算した「総合通信簿」です。
「見逃しがないか」だけでなく「速度や向きも正確か」を
1つのスコアで示せるため、論文などで重視されます。
次の式で表されます。
NDS = 1/10 * [5*mAP + Σ(max(0, 1-TP_error))]
2. トラッキング (Multi-Object Tracking)
動いている物体に同じIDを振り続け、時間的な一貫性を保つ能力です。
ずっと追いかけられているかを測ります。
AMOTA (Average Multi-Object Tracking Accuracy)
トラッキングの正確さを表す総合指標です。
例えば、交差点で車の前を通り過ぎる歩行者を、ずっと「歩行者A」として追跡できれば高スコア。途中で「歩行者B」に入れ替わったり(ID Switch)、見失ったりすると下がります。
AMOTP (Average Multi-Object Tracking Precision)
追跡している物体の「位置精度」の平均です。
「追跡し続けている状態」において、その物体の座標がどれだけ正確かを測ります。
3. プランニング (Planning)
認識した情報をもとに、自車が通るべき「未来の道筋」を決める能力です。
L2誤差 (L2 norm)
AIが決めた「走行ルート」と、人間のドライバーが実際に走った「正解ルート」がどれだけ離れているかを計算します。
例えば、
- AIの計画:「5秒後に、今の位置から30m先の左側にいる」
- 人間の実績:「5秒後に、今の位置から32m先の左側にいた」
この2点間の直線距離がL2誤差です。
この値が小さいほど、人間の運転に近い、自然な走りができていると評価されます。
まとめ
自動運転AIの評価は大枠次のようになります。
- 何があるかを当てる(mAP, NDS)
- 動きを正確に追う(AMOTA, AMOTP)
- 人間のように走る(L2誤差)
自動運転AIってどうなっているの?というブラックボックスの中身が
どうなっているかがわかると技術の進化が見えて面白いですね。