はじめに
ついに東京ディズニーランドにもBDXドロイドが上陸して盛り上がっていますね.一部ロボットの界隈では昨年後半から話題になっていて,かく言う私も「これ作りたい!!!!!」と色々調査していました.
本稿では,調査の一環で並べた「BDXドロイドを強化学習で制御する論文と,それに関連する論文ツリー」をご紹介します.ドロイドくんの制御のあれこれ,というよりも「関連する技術をざっくり俯瞰的に」知ることができます!
論文ツリー
今回は上図のようなツリーを描いてみました.図中でアルファベットが付された円はグラフのノード,数字が振られた線はエッジを表しており,次節以降の説明で用いられる記号と対応しています.
ツリーを構成する論文(ノード)
コア論文(a): Design and Control of a Bipedal Robotic Character
BDXドロイドに対して姿勢や歩容を強化学習ベースで制御する手法を提案している論文.今回の調査の原点.ドロイドくんホントかわいいですね.
(b): Interactive Design of Stylized Walking Gaits for Robotic Characters
この論文では,アーティストが自由にデザインした個性的な歩行動作を実際の二足歩行ロボットで実現するためのシステムを提案しました.物理的制約を考慮したリアルタイム編集ツールを用いて動きを生成し,複数の歩行パターンを組み合わせることで,さまざまな速度でも自然で表情豊かな歩きを可能にしています.
(c): DOC: Differentiable Optimal Control for Retargeting Motions onto Legged Robots
この論文では,動物やアニメーションの自然な動きをロボットに転写するための微分可能最適制御(DOC)手法を提案しました.体型や関節数が異なるロボットにも柔軟に対応し,最適化により自然な動きを実現します.さらに,モデル予測制御(MPC)を活用することで,実際のロボットが突発的な外乱にも安定して対応可能であることを示しました.
(d): Reinforcement Learning for Robust Parameterized Locomotion Control of Bipedal Robots
この論文では,モデルベース制御が抱える不安定性を克服するため,強化学習を用いてシミュレーション上でロバストな二足歩行制御を学習させて実機(Cassieロボット)に転移する手法を提案しました.環境のばらつきを考慮することで,従来手法より安定かつ多様な歩行動作(速度・高さ・方向の調整)が可能となっています.
(e): Animated Cassie: A Dynamic Relatable Robotic Character
この論文では,感情表現をする二足歩行ロボットのためのアニメーションから実世界への展開手法を提案しました.仮想キャラクター向けの感情豊かな動きを物理的に実現可能な動作に変換し,Cassieロボットで実験的に検証しています.これにより,動的な動きで感情を伝える新しいロボットのジャンル「Dynamic Relatable Robotic Characters」を提唱しました.
(f): AMP: Adversarial Motion Priors for Stylized Physics-Based Character Control
この論文では,キャラクターが自然で多様な動きを自動生成できるように敵対的模倣学習を用いた新たな手法を提案しました.人間が詳細な動作指示を行わなくても,大量の動作データから自動的に適切な動きを選び出し,高品質で柔軟な動作を合成することに成功しています.
(g): DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills
この論文では,物理シミュレーション上でリアルな動きを再現しつつ,状況変化に柔軟に対応できるキャラクターアニメーションを強化学習で実現しました.さまざまな動作データを模倣しながら,歩行,アクロバット,格闘技など多彩な動きを持つキャラクターがインタラクティブに振る舞えるようにりました.
(h): Real-time dance generation to music for a legged robot
この論文では,四足歩行ロボットがリアルタイムで音楽を聞き取り,そのリズムに合わせて多彩なダンスを踊れる仕組みを開発しました.音楽のビートをリアルタイムで検出し,マルコフ連鎖を使って多様な動作を選択し,フィードバック制御で正確なタイミングを調整することで,音楽との高精度な同期を実現しています.
エッジの説明
1: a-b間
(b)はロボットの制約を考慮しつつ芸術的な歩行モーションを設計するためのインタラクティブな手法を提供しており,表現豊かな動作をロボットで実現するという(a)のベースになっています.特に,リズムやジェスチャーを付与した歩行を実ロボットで直接デザイン・適用できる点は,(a)の目的と強く合致しています.
2: a-c間
(c)ではアニメーションや生物由来の動作をロボットに適用する手法を提案し,ロボットが元の動きを再現しつつ安定動作できることを示しました.(a)の強化学習による手法は,この先行研究(c)とアプローチは異なるものの,ロボットが感情表現などの動作を実現するという目標においては共通しており,最適制御と学習ベース制御のそれぞれの利点が議論されています.
3: a-d間
(d)はモデルフリー強化学習で二足歩行ロボットの多目的な歩行ポリシーを学習し,目標速度や姿勢を変化させても安定して歩行できることを示しました.(a)はこの知見(ドメインランダム化によるシミュレーションや実機への転移手法など)を踏まえてシステムを設計しています.
4: a-e間
(e)は動的二足歩行ロボットに感情豊かなキャラクター表現を持たせる試みの黎明で,アニメーション制作の手法を実ロボットの動作生成に組み込んだフレームワークを確立しました.(e)が示す感情表現動作の最適化手法に対して,(a)は強化学習とリアルタイム制御によってより多様な動作と操作性を実現しており,(e)で示された手法を発展させています.
5: a-f間
(f)はAMP (Adversarial Motion Priors)と呼ばれる手法です.物理シミュレーション上でスタイルの異なる動作を敵対的学習により獲得させることに成功しており,複雑な報酬関数の設計を不要としました.(a)はロボット実機上での多様な動作制御に取り組む中で,これに基づいて動作のスタイルとタスクを両立させる手法を示しています.
6: a-g間
(g)はDeepMimicと呼ばれる参考モーションの模倣によって物理キャラクターに高度な動作を習得させる手法です.(a)はDeepMimicで可能となった多様なスキルの統合学習を参考に,ロボット用に強化学習ポリシーを設計,訓練しています.
7: a-h間
(h)は四足ロボットが音楽に合わせて多彩なダンスを披露した事例であり,エンターテインメントロボットとして人の目を引く動作生成の可能性を示しました.(a)で示されたのは自律的なダンスではなく,遠隔操作と事前アニメーション生成の組合せですが,「観客に訴求するロボットの身体表現」という点で(h)とコンセプトが同じであり関連の研究として示されています.
8: f-g間
(f)のAMPは,自身の2018年のDeepMimic(g)に直接言及しており,それの性能を向上させる形で提案されています.DeepMimic(g)では各モーションに対し目的関数を調整する必要がありましたが,AMP(9)では敵対的な学習を用いることでこれを解決しました.
おわりに
いかがでしたか?強化学習ベースのロボットの制御,めっちゃ盛り上がっていますね.僕も自分だけのドロイドくん早く作りたいです.夢の国のドロイドくん早く見に行きたい!!!
それでは.
参考文献
(a): Ruben Grandia, Espen Knoop, Michael A. Hopkins, Georg Wiedebach,
Jared Bishop, Steven Pickles, David Müller, and Moritz Bächer,Design and Control of a Bipedal Robotic Character,Robotics: Science and Systems,-, 2024.
(b): Michael A. Hopkins, Georg Wiedebach, Kyle Cesare, Jared Bishop, Espen Knoop, and Moritz Bächer.,Interactive Design of Stylized Walking Gaits for Robotic Characters,ACM Transactions on Graphics (ToG),43,2024.
(c): Ruben Grandia, Farbod Farshidian, Espen Knoop, Christian Schumacher, Marco Hutter, and Moritz Bächer.,DOC: Differentiable Optimal Control for Retargeting Motions onto Legged Robots,ACM Transactions on Graphics (ToG),42,2023.
(d): Zhongyu Li, Xuxin Cheng, Xue Bin Peng, Pieter Abbeel, Sergey Levine, Glen Berseth, and Koushil Sreenath,Reinforcement Learning for Robust Parameterized Locomotion Control of Bipedal Robots,Proceedings of IEEE ICRA 2021,pages 2811–2817,2021.
(e): Zhongyu Li, Christine Cummings, and Koushil Sreenath,Animated Cassie: A Dynamic Relatable Robotic Character,Proceedings of IEEE/RSJ IROS 2020,pages 3739–3746,2020.
(f): Xue Bin Peng, Ze Ma, Pieter Abbeel, Sergey Levine, and Angjoo Kanazawa,AMP: Adversarial Motion Priors for Stylized Physics-Based Character Control,ACM Transactions on Graphics (ToG),40(4):1–20,2021.
(g): Xue Bin Peng, Pieter Abbeel, Sergey Levine, and Michiel Van de Panne.,DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills,ACM Transactions on Graphics (ToG),37(4):1-13,2018.
(h): Thomas Bi, Péter Fankhauser, Dario Bellicoso, and Marco Hutter.,Real-time dance generation to music for a legged robot.,Proceedings of IEEE/RSJ IROS 2018,-,2018.