More than 5 years have passed since last update.

Learning Basketball Dribbling Skills Using Trajectory Optimization and Deep Reinforcement Learningを読んだ

Last updated at 2018-11-12Posted at 2018-11-12

LIBIN LIU, DeepMotion Inc., USA
JESSICA HODGINS, Carnegie Mellon University, USA
ACM Transactions on Graphics (August 2018)
pdf, video, project page

前提知識と英語力の無さから理解が困難だった．．．
ここのまとめを参考にさせていただきました．

どんなもの？

バスケットボールというスポーツは動きが激しく，細かなボールのコントロールが要求され，そのシミュレーションは難しい．
この論文では，モーションキャプチャのデータからドリブルのスキルを強化学習を用いて学習する．

先行研究との差分

リアルタイムなバスケットボールの制御を実現
- 入力のモーションキャプチャにボールの動きは不要
深層強化学習を適用することで非線形な腕の動きを学習可能に

技術や手法のキモ

以下の図は提案手法の概要図．
移動の制御"Locomotion Control"と腕の制御"Arm Control"は別々に最適化を行う．

LEARNING OF LOCOMOTION CONTROL

この論文に詳細は書かれていない．
[Liu et al. 2016]で学習する．
ここではボールの位置情報は使用せず，モーションキャプチャのデータだけを使用して学習する．

LEARNING OF ARM CONTROL

Trajectory Optimizationで線形回帰のための教師データの作成，
Learning of the Linear Control Policyで線形回帰で方策関数を獲得，
Deep Reinforcement Learningで深層強化学習で非線形な方策関数を獲得する．

Trajectory Optimization

後の線形回帰のためのデータ（腕データ）を作成する．
肩，肘，手首のモーションキャプチャデータからのオフセット，手（指？）の開き具合（腕データ）を求める．
これらは非常にパラメータが多いのでsliding window scheme [Al Borno et al. 2013; Liu et al. 2006]を使って最適化を進める．
以下がsliding window schemeを図示したもの（よく分からない．．．）．

パラメータの最適化には，Covariance Matrix Adaptation Evolution Strategy（CMA-ES, 共分散行列適応進化戦略）を使用する．

Learning of the Linear Control Policy

方策関数を線形回帰で求める．
入力状態はボール位置，ボール速度，体の各部位の位置，速度，ボールと手の距離，体の質量中心の位置，速度，プレイヤーの角運動量．
出力は肩，肘，手首，手の開き具合などの腕データ．
教師データはTrajectory Optimizationで得られた腕データ．

Deep Reinforcement Learning

深層強化学習で非線形な方策関数を学習する．
Deep Deterministic Policy Gradient (DDPG) algorithm （Actor-CriticのDeep版？）で学習する．
方策関数は，線形回帰で求めた方策関数で初期化することが重要だったよう．

どうやって有効性を検証したか

今回は5つのスキルを学習．
(A) carrying the ball while swinging arms
(B) dribbling in-place with the right hand
(C) rotating the ball around the waist
(D) dribbling in-place while switching hands
(E) dribbling while running

以下はそれぞれのスキルに関するデータ．
$T_{cycle}$はスキルの（発動）時間 (the period of the skill)
$T_{opt}$はそのスキルのtrajectory optimizationに要した時間
$N_{linear}$は線形な方策を使用して連続でスキルを行えた最大回数
$T_{ddpg}$は深層強化学習に要した時間

以下のグラフは10000回の試行の内，何回終点状態になったか（失敗したか）．
スキルごとの難易度や，どれだけ方策がロバストかを表す．
学習を進めるにつれてその回数は減っている．

以下のグラフは深層強化学習の際に方策を「ランダムに初期化」したか，「線形回帰で獲得した方策で初期化」したかで比較したもの．
「線形回帰で獲得した方策で初期化」した方が安定で早く学習ができていることが分かる．

以下はスキルの成功確率を表にしたもの．
非常に成功確率が高い．

議論はあるか

モーションキャプチャのデータから，効率良くバスケットボールの制御を学習する手法を提案
- Trajectory Optimization
- Linear Control Policy
- Deep Reinforcement Learning
Linear Control Policyで深層強化学習の方策を初期化することで学習を効率よく進められた
スキル間の遷移も学習
最終的にはスキルを10000回試行しても10回前後の失敗で抑えられるように

次に読むべき論文

次回もCG寄りの論文を読んでみる
服のシワを生成するGAN
DeepWrinkles: Accurate and Realistic Clothing Modeling

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up