More than 5 years have passed since last update.

論文読み：Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World

Last updated at 2019-06-10Posted at 2019-06-06

「ディープニューラルネットワークをシミュレーションから実世界へ転移するためのDomain Randomization」

シミュレーション環境をランダム化する事で実環境への転移が可能である事を示した論文。
この論文ではObject localizationしているだけだが、後続の論文では、ロボットコントロールに応用している。（本研究でも、重心位置を推定して把持を試してはいる）
特にHandcraftな調整をせず、sim-to-real ができている点でepoch-makingな論文。

Author:

Josh Tobin, OpenAI and UC Berkeley EECS,
Rachel Fong, OpenAI
Alex Ray, OpenAI
Jonas Schneider, OpenAI
Wojciech Zaremba, OpenAI
Pieter Abbeel, OpenAI, UC Berkeley EECS & ICSI,

※ 原文・図版は上記PDFより。
※ distractor objectの訳でいいものが思いつかず、「誤った選択肢のオブジェクト(distractor)」としています
※ Google translaterを活用して翻訳してますので微妙なところがあります。。随時、修正します。
※ 例によって論文の順に書いています。適宜読み飛ばしてください。

Abstract

シミュレートされたロボット工学をハードウェア上の実験から分離する "reality gap" を埋めることができれば、データの可用性を向上させ、ロボット研究を加速することができる
本論文では、"domain randomization"について述べる
これは、シンプルなテクニックで、シミュレーション画像を実画像に適用する
シミュレータでのレンダリングをランダム化
シミュレータに十分な可変性があると、現実の世界は別のバリエーションとしてモデルに現れる可能性がある。
我々は、一般的なロボット操作技術への足がかりとなるobject localizationのタスクに焦点を当てる
非現実的なランダムテクスチャを有するシミュレータからのデータのみを使用して、1.5ｃｍの精度で、現実的で無いランダムテクスチャーを用いたシミュレータからのデータのみを用い、誤った選択(distractors)および部分的妨害(partial occlusions)に対してロバストである。
検出器の精度を検証するために、我々はそれらが雑然とした環境で把握(grasping)ができることを示す。
我々の知る限りでは、これはロボット制御の目的のために（実画像の事前トレーニングなしで）シミュレートされたRGB画像のみで学習されたディープニューラルネットワークを現実に適応（transfer）する事に初めて成功した。

1. INTRODUCTION

物理シミュレータでロボット学習を実行すると、物理ロボットで可能であるよりも速く、よりスケーラブルで、そしてより低コストのデータ収集を可能にすることができ、機械学習がロボット工学に与える影響を加速することができる
シミュレーションによる学習は、Atari ［27］やロボット制御［21］［38］のようなタスクで、深層強化学習を使用して人間レベルのパフォーマンスを達成している。
27: Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A Rusu, Joel Veness, Marc G Bellemare, Alex Graves, Martin Riedmiller, Andreas K Fidjeland, Georg Ostrovski, et al. Human-level control through deep reinforcement learning. Nature, 518(7540):529–533, 2015.
21: Sergey Levine, Chelsea Finn, Trevor Darrell, and Pieter Abbeel. End- to-end training of deep visuomotor policies. Journal of Machine Learning Research, 17(39):1–40, 2016.
38: John Schulman, Sergey Levine, Pieter Abbeel, Michael I Jordan, and Philipp Moritz. Trust region policy optimization. In ICML, pages 1889–1897, 2015.
deep reinforcement learning はランダム探索を行うが、物理的なハードウェアで行うには危険がある
それは、大量のサンプルを必要とする
理想的には、シミュレーションの結果をハードウェアで動かしたい
残念ながら、シミュレーションと現実の間のギャップを埋めるのは困難な点がある。
System identification (システム同定。物理システムの動作に合わせてシミュレーションのパラメータを調整するプロセス) は、時間がかかり、エラーが発生しやすい
強力なSystem identificationであっても、現実の世界では、現在の物理シミュレータでは捉えられていない、非剛性、ギアのバックラッシュ、摩耗や流体力学などのモデル化されていない物理的効果がある。
さらに、イメージレンダラのような忠実度の低いシミュレートされたセンサは、現実世界の対応するものが生み出す豊かさとノイズを再現できないことがよくある。
これらの違いは、まとめてReality gapとして知られており、実際のロボットでシミュレートされたデータを使用する際の障害となる。
本稿では、domain randomizationという、現実のギャップに対処するためのシンプルだが有望な方法を探る。
単一のシミュレート環境でモデルをトレーニングする代わりに、トレーニング時にシミュレーターをランダム化してモデルを広範囲の環境にさらす
この作業の目的は、次の仮説を検証することである。
シミュレーションの変動性(variability)が十分に大きい場合、シミュレーションで訓練されたモデルは、追加の訓練なしで実世界に一般化される
原則として、ドメインのランダム化は現実のギャップのあらゆる要素に適用することができるが、我々は低精度の模擬カメラ画像(simulated camera images)から転移(transfer)するという課題に焦点を合わせる。
カメラのピクセルからのロボット制御は、カメラの低価格とそれらが提供する豊富なデータのために魅力的ですが、高次元の入力データを処理することを伴うため困難な面がある。
最近の研究は、ディープニューラルネットワークを用いた教師あり学習が高次元入力から一般化可能な表現を学習するための強力なツールであることを示しているが［20］、ディープラーニングは大量のラベル付きデータに依存する。
20: Yann LeCun, Yoshua Bengio, and Geoffrey Hinton. Deep learning. Nature, 521(7553):436–444, 2015.
ラベル付けされたデータは正確なロボット操作の振る舞いのために現実の世界で入手するのは困難ですが、物理シミュレータで生成するのは簡単である。
本稿では、物体の位置を検出するためにニューラルネットワークを訓練するというタスクに焦点を合わせる。
ピクセルからのオブジェクト位置特定は、ロボット工学においてよく研究されている問題であり、そして最先端の方法は、複雑な手作業による画像処理パイプラインを使用する（例えば、［６］、［５］、［４４］）。
6: Alvaro Collet and Siddhartha S Srinivasa. Efficient multi-view object recognition and full pose estimation. In Robotics and Automation (ICRA), 2010 IEEE International Conference on, pages 2050–2055. IEEE, 2010.
5: Alvaro Collet, Manuel Martinez, and Siddhartha S Srinivasa. The moped framework: Object recognition and pose estimation for manip- ulation. The International Journal of Robotics Research, 30(10):1284– 1306, 2011.
44: Jie Tang, Stephen Miller, Arjun Singh, and Pieter Abbeel. A textured object recognition pipeline for color and depth image data. In Robotics and Automation (ICRA), 2012 IEEE International Conference on, pages 3467–3474. IEEE, 2012.
この作業は、ディープラーニングを使用してオブジェクト検出パイプラインの精度を向上させるという目標に向けた最初のステップ。
さらに、我々は、object localizationのためのsim-to-real 転移(transfer)が、汎用操作の振る舞いを転移するための足がかりになると捉えている
さまざまな幾何学的オブジェクトに対して、単純なアルゴリズムで生成されたテクスチャでレンダリングされたシミュレートされたデータのみを使用して、実世界で約1.5cmまで正確な検出器をトレーニングできた
これまでの研究では、ImageNetで事前学習され、ランダム化されたレンダリングピクセルで微調整されたニューラルネットワークを使用してロボット制御を実行できることを示した［37］が、ドメインのランダム化が精度を必要とするロボット作業に役立つことを初めて示した
37: Fereshteh Sadeghi and Sergey Levine. (cad) 2 RL: Real single-image flight without a single real image. arXiv preprint arXiv:1611.04201, 2016
また、無作為化とトレーニング方法のさまざまな選択が移管の成功に与える影響についてのablation study（手法の一部を抜いて比較検討）も行う。
十分な数のテクスチャを用いて、実画像を用いて物体検出器を事前訓練することは不要であることが分かった。
私たちの知る限りでは、これはロボット制御の目的で、シミュレートされたRGB画像だけで訓練されたディープニューラルネットワークを実世界に初めて転送することに成功した。

2. RELATED WORK

A. ロボットのための、Object detection と pose estimation

4: Alvaro Collet, Dmitry Berenson, Siddhartha S Srinivasa, and Dave Ferguson. Object recognition and full pose registration from a single image for robotic manipulation. In Robotics and Automation, 2009. ICRA’09. IEEE International Conference on, pages 48–55. IEEE, 2009.
5: Alvaro Collet, Manuel Martinez, and Siddhartha S Srinivasa. The moped framework: Object recognition and pose estimation for manipulation. The International Journal of Robotics Research, 30(10):1284– 1306, 2011.
6: Alvaro Collet and Siddhartha S Srinivasa. Efficient multi-view object recognition and full pose estimation. In Robotics and Automation (ICRA), 2010 IEEE International Conference on, pages 2050–2055. IEEE, 2010.
10: Staffan Ekvall, Danica Kragic, and Frank Hoffmann. Object recognition and pose estimation using color cooccurrence histograms and geometric modeling. Image and Vision Computing, 23(11):943–955, 2005.
44: Jie Tang, Stephen Miller, Arjun Singh, and Pieter Abbeel. A textured object recognition pipeline for color and depth image data. In Robotics and Automation (ICRA), 2012 IEEE International Conference on, pages 3467–3474. IEEE, 2012
50: Patrick Wunsch and Gerd Hirzinger. Real-time visual tracking of 3d objects with dynamic handling of occlusion. In Robotics and Automation, 1997. Proceedings., 1997 IEEE International Conference on, volume 4, pages 2868–2873. IEEE, 1997.
54: Stefan Zickler and Manuela M Veloso. Detection and localization of multiple objects. In Humanoid Robots, 2006 6th IEEE-RAS International Conference on, pages 20–25. IEEE, 2006.
最近のアプローチは、シーン内のオブジェクトのオフライン構築または３Ｄモデルの学習を含むものが多い
a full 3D mesh model
44: Jie Tang, Stephen Miller, Arjun Singh, and Pieter Abbeel. A textured object recognition pipeline for color and depth image data. In Robotics and Automation (ICRA), 2012 IEEE International Conference on, pages 3467–3474. IEEE, 2012.
3D metric feature representation
5: Alvaro Collet, Manuel Martinez, and Siddhartha S Srinivasa. The moped framework: Object recognition and pose estimation for manipulation. The International Journal of Robotics Research, 30(10):1284– 1306, 2011.
テスト時に、テストデータからの特徴量は３Ｄモデル（または３Ｄモデルからの特徴量）とマッチングされる。
Scale-Invariant Feature Transform (SIFT) features
12: Iryna Gordon and David G Lowe. What and where: 3d object recognition with accurate pose. In Toward category-level object recognition, pages 67–82. Springer, 2006.
color co-occurrence histograms
10: Staffan Ekvall, Danica Kragic, and Frank Hoffmann. Object recognition and pose estimation using color cooccurrence histograms and geometric modeling. Image and Vision Computing, 23(11):943–955, 2005.
例えば、ブラックボックス非線形最適化アルゴリズムを使用して、対象モデルからのSIFT points、およびテスト画像内の2D pointsの再投影誤差を最小にすることができる。
4: Alvaro Collet, Dmitry Berenson, Siddhartha S Srinivasa, and Dave Ferguson. Object recognition and full pose registration from a single image for robotic manipulation. In Robotics and Automation, 2009. ICRA’09. IEEE International Conference on, pages 48–55. IEEE, 2009.
カメラフレームと、深度情報(depth information)を使った例.
6: Alvaro Collet and Siddhartha S Srinivasa. Efficient multi-view objectrecognition and full pose estimation. In Robotics and Automation (ICRA), 2010 IEEE International Conference on, pages 2050–2055. IEEE, 2010.
44: Jie Tang, Stephen Miller, Arjun Singh, and Pieter Abbeel. A textured object recognition pipeline for color and depth image data. In Robotics and Automation (ICRA), 2012 IEEE International Conference on, pages 3467–3474. IEEE, 2012.
私達の方法に比べて、伝統的なアプローチは広範囲の訓練を必要とせず、また、それらオブジェクトが配置されている面の位置や大きさについての仮定せずに、オブジェクトのフル3Dポーズ（位置と方向）を検出することができ、より豊かな感覚データ(sensory data)を活用できる
しかしながら、我々のアプローチは、３Ｄ再構成の困難な問題を回避し、より挑戦的な問題により良く拡大することができる、単純で実装が容易なディープラーニングベースのパイプラインを採用する

B. Domain adaptation

コンピュータビジョンコミュニティは、ソースドメインで学習されたvision-basedモデルをこれまでに見たことのないターゲットドメインに適応させる問題について多くの研究をしてきた
9: Lixin Duan, Dong Xu, and Ivor Tsang. Learning with aug- mented features for heterogeneous domain adaptation. arXiv preprint arXiv:1206.4660, 2012.
14: Judy Hoffman, Sergio Guadarrama, Eric Tzeng, Ronghang Hu, Jeff Donahue, Ross Girshick, Trevor Darrell, and Kate Saenko. Lsda: Large scale detection through adaptation. In Neural Information Processing Symposium (NIPS), 2014.
15: Judy Hoffman, Erik Rodner, Jeff Donahue, Trevor Darrell, and Kate Saenko. Efficient learning of domain-invariant image representations. arXiv preprint arXiv:1301.3224, 2013.
19: Brian Kulis, Kate Saenko, and Trevor Darrell. What you saw is not what you get: Domain adaptation using asymmetric kernel transforms. In Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, pages 1785–1792. IEEE, 2011.
23: Mingsheng Long, Yue Cao, Jianmin Wang, and Michael I Jordan. Learning transferable features with deep adaptation networks. In ICML, pages 97–105, 2015.
25: Yishay Mansour, Mehryar Mohri, and Afshin Rostamizadeh. Do- main adaptation: Learning bounds and algorithms. arXiv preprint arXiv:0902.3430, 2009.
51: Jun Yang, Rong Yan, and Alexander G Hauptmann. Cross-domain video concept detection using adaptive svms. In Proceedings of the 15th ACM international conference on Multimedia, pages 188–197. ACM, 2007.
様々な手法がある
ターゲットドメインで再学習
52: Jason Yosinski, Jeff Clune, Yoshua Bengio, and Hod Lipson. How transferable are features in deep neural networks? In Advances in neural information processing systems, pages 3320–3328, 2014.
ソースドメインおよびターゲットドメインの統計に基づいてモデルの重みを適応させること
22: YanghaoLi,NaiyanWang,JianpingShi,JiayingLiu,andXiaodiHou. Revisiting batch normalization for practical domain adaptation. arXiv preprint arXiv:1603.04779, 2016.
ドメイン間の不変の特徴を学習し
47: Eric Tzeng, Judy Hoffman, Ning Zhang, Kate Saenko, and Trevor Darrell. Deep domain confusion: Maximizing for domain invariance. arXiv preprint arXiv:1412.3474, 2014.
ターゲットドメインからソースドメインへのマッピングを学習
43: Yaniv Taigman, Adam Polyak, and Lior Wolf. Unsupervised cross-domain image generation. arXiv preprint arXiv:1611.02200, 2016.
強化学習では、以下のような例がある
不変特徴表現(learning invariant feature representations)
13: Abhishek Gupta, Coline Devin, YuXuan Liu, Pieter Abbeel, and Sergey Levine. Learning invariant feature spaces to transfer skills with reinforcement learning. ICLR 2017, to appear, 2017.
事前学習ネットワークの適応
35: Andrei A Rusu, Neil C Rabinowitz, Guillaume Desjardins, Hubert Soyer, James Kirkpatrick, Koray Kavukcuoglu, Razvan Pascanu, and Raia Hadsell. Progressive neural networks. arXiv preprint arXiv:1606.04671, 2016.
強化学習の文献におけるドメイン適応のより完全な取り扱いについては［13］を参照
本稿では、領域適応を行わずにシミュレーションから実世界への移行の可能性を検討する。

C. Bridging the reality gap

物理的なロボット実験のためにシミュレートされたデータを活用することに関する以前の研究は、現実のギャップを埋めるためのいくつかの戦略を探った。
1つのアプローチは、システム識別を実行し、高品質のレンダリングを使用することによって、シミュレータを物理的現実と厳密に一致させること。
リアルなRGBレンダリングだけでは実際のロボットタスクへの転移に成功することは限られていた
16: StephenJamesandEdwardJohns.3dsimulationforrobotarmcontrol with deep q-learning. arXiv preprint arXiv:1609.03759, 2016.
しかし、奥行き情報のリアルなシミュレーションを組み込むことでレンダリングされた画像で訓練されたモデルを現実世界にかなりうまく転送できるようになる
32: Benjamin Planche, Ziyan Wu, Kai Ma, Shanhui Sun, Stefan Kluckner, Terrence Chen, Andreas Hutter, Sergey Zakharov, Harald Kosch, and Jan Ernst. Depthsynth: Real-time realistic synthetic data generation from cad models for 2.5 d recognition. arXiv preprint arXiv:1702.08558, 2017.
高品質のシミュレータからのデータを微調整のような他のアプローチと組み合わせることで、実世界で必要とされるラベル付きサンプルの数を減らすことができる
34: Stephan R Richter, Vibhav Vineet, Stefan Roth, and Vladlen Koltun. Playing for data: Ground truth from computer games. In European Conference on Computer Vision, pages 102–118. Springer, 2016
これらのアプローチとは異なり、私たちはの手法は、スピードと、現実世界のテクスチャ・ライト、シーン設定の一致に煩わせることはない
他の研究は、現実のギャップを埋めるためにドメイン適応技術を使用することを探求する
シミュレーションで習得したコントローラを実際の世界で最初から習得するよりも微調整する方が速いことがよくある
7: Mark Cutler and Jonathan P How. Efficient reinforcement learning for robots using informative simulated priors. In Robotics and Automation (ICRA), 2015 IEEE International Conference on, pages 2605–2612. IEEE, 2015.
18: J Zico Kolter and Andrew Y Ng. Learning omnidirectional path following using dimensionality reduction. In Robotics: Science and Systems, 2007.
シミュレーションデータに基づいて学習された変分オートエンコーダを使用して、所望の行動タイプ（例えば、到達、把握）に対応する運動出力の軌跡(Trajectory)を低次元のLatent codeとしてエンコードする。
リアルデータマッピング特徴量(real data mapping features)とLatent code潜の分布に関するポリシーが学習される。
学習された方針は探検によって望ましい身体的な行動に対応するLatent codeを選ぶことによってreality-gapを克服する
11: Ali Ghadirzadeh, Atsuto Maki, Danica Kragic, and Ma ̊rten Bjo ̈rkman. Deep predictive policy training using reinforcement learning. arXiv preprint arXiv:1703.00727, 2017.
ドメイン適応はロボットビジョンにも適用される。
以下では、プログレッシブネットワークアーキテクチャを使用して、シミュレートされたピクセルで事前トレーニングされたモデルを適応させ、実世界だけで微調整やトレーニングを行うよりもサンプル効率が高いことが分かった。
36: Andrei A Rusu, Matej Vecerik, Thomas Rotho ̈rl, Nicolas Heess, Razvan Pascanu, and Raia Hadsell. Sim-to-real robot learning from pixels with progressive nets. arXiv preprint arXiv:1610.04286, 2016.
以下では、著者らは、実画像をモデルによって理解される空間にマッピングすることを可能にするドメイン間の対応関係の学習を探究している。
46: EricTzeng,ColineDevin,JudyHoffman,ChelseaFinn,PieterAbbeel, Sergey Levine, Kate Saenko, and Trevor Darrell. Adapting deep vi- suomotor representations with weak pairwise constraints. In Workshop on the Algorithmic Foundations of Robotics (WAFR), 2016.
前述のアプローチはどちらも実社会では得ることが困難な報酬関数またはラベル付きデータを必要とするが、以下では、自動学習のブートストラップのために、3Dモデルからのランダマイズされた照明リアルのレンダリング画像を用い、物体検出器のpre-trainingのための手作業によるデータのラベリングを必要とせず、約500の実世界のサンプルのみを使用する学習できる事を示した。
26: Chaitanya Mitash, Kostas E Bekris, and Abdeslam Boularias. A self- supervised learning system for object detection using physics simula- tion and multi-view pose estimation. arXiv preprint arXiv:1703.03347, 2017.
関連するアイデアである繰り返し学習制御では、実世界のデータを使用してコントローラを直接改善するのではなく、実世界のデータを使用して最適な制御動作を決定するためのダイナミクスモデルを改善する。
繰り返し学習制御は、ダイナミクスモデルから開始し、対応する制御動作を実システムに適用してから、得られたデータを使用してダイナミクスモデルを改善するループを実行する繰り返し学習制御は、モデルカー制御（例えば［1］および［8］）から手術用ロボット工学（例えば［48］）まで、さまざまなロボット制御問題に適用されてきた
1: Pieter Abbeel, Morgan Quigley, and Andrew Y Ng. Using inaccurate models in reinforcement learning. In Proceedings of the 23rd inter- national conference on Machine learning, pages 1–8. ACM, 2006.
8: Mark Cutler, Thomas J Walsh, and Jonathan P How. Reinforcement learning with multi-fidelity simulators. In Robotics and Automation (ICRA), 2014 IEEE International Conference on, pages 3888–3895. IEEE, 2014.
48: Jur Van Den Berg, Stephen Miller, Daniel Duckworth, Humphrey Hu, Andrew Wan, Xiao-Yu Fu, Ken Goldberg, and Pieter Abbeel. Super- human performance of surgical tasks by robots using iterative learning from human-guided demonstrations. In Robotics and Automation (ICRA), 2010 IEEE International Conference on, pages 2074–2081. IEEE, 2010.
Domain adaptationと繰り返し学習制御は現実のギャップに対処するための重要なツールだが、これらのアプローチとは対照的に、我々の手法は現実世界のデータに関する追加のトレーニングを必要としない我々の方法はまた、ほとんどのdomain adaptation技術と容易に組み合わせることができる。
何人かの著者は、現実のギャップを埋めるためにdomain randomizationを使用するという考えを以前に研究した。
physics adaptation(物理的適応)の文脈では、以下では、ダイナミクスモデルのアンサンブルのポリシーを学習することで、コントローラをモデリングエラーに対してロバストにし、実際のロボットへの転送を改善できることを示している。
28: Igor Mordatch, Kendall Lowrey, and Emanuel Todorov. Ensemble- cio: Full-body dynamic motion planning that transfers to physical humanoids. In Intelligent Robots and Systems (IROS), 2015 IEEE/RSJ International Conference on, pages 5307–5314. IEEE, 2015.
同様に、以下では、著者らは、ランダム化された摩擦と動作遅延を用いて、ロボットのグリッパに保持されているツールをシミュレータで回転させるポリシーを訓練し、それが現実世界で機能し、システムパラーメーターの推定誤差に対してロバストであることを示している。
2: Rika Antonova, Silvia Cruciani, Christian Smith, and Danica Kragic. Reinforcement learning for pivoting task. arXiv preprint arXiv:1703.00472, 2017.
コントローラの堅牢性に頼るのではなく、以下では様々な物理現象について訓練されたモデルを使用してオンライン軌道(trajectory)データを使用してシステム同定を実行しているが、それらのアプローチは現実世界で成功することは示されていない。
53: Wenhao Yu, C Karen Liu, and Greg Turk. Preparing for the unknown: Learning a universal policy with online system identification. arXiv preprint arXiv:1702.02453, 2017.
以下では敵対的学習やターゲットドメインからのデータを使用して集団分布を適応させることを含むモデルのアンサンブルから学習するためのさまざまな学習戦略を探るが、実世界の転移がうまくいくことを実証していない。
33: Aravind Rajeswaran, Sarvjeet Ghotra, Sergey Levine, and Balaraman Ravindran. Epopt: Learning robust neural network policies using model ensembles. arXiv preprint arXiv:1610.01283, 2016.
コンピュータビジョンの研究者は、この分野の初期の頃から、実写画像のパフォーマンスを向上させるためのツールとして3Dモデルを使用してきたた
30: RamakantNevatiaandThomasOBinford.Descriptionandrecognition of curved objects. Artificial Intelligence, 8(1):77–98, 1977.
24: David G Lowe. Three-dimensional object recognition from single two-dimensional images. Artificial intelligence, 31(3):355–395, 1987.
最近では、3Dモデルは、データセット間のディープニューラルネットワークの転移を支援し、視点推定［40］やオブジェクト検出［42］、［29］などのタスクで小さなデータセットへのover-fittingを防ぐため、トレーニングデータを増やす目的で使用されている。
40: HaoSu,CharlesRQi,YangyanLi,andLeonidasJGuibas.Renderfor cnn: Viewpoint estimation in images using cnns trained with rendered 3d model views. In Proceedings of the IEEE International Conference on Computer Vision, pages 2686–2694, 2015.
42: BaochenSunandKateSaenko.Fromvirtualtoreality:Fastadaptation of virtual object detectors to real domains. In BMVC, volume 1, page 3, 2014.
29: YairMovshovitz-Attias,TakeoKanade,andYaserSheikh.Howuseful is photo-realistic rendering for visual learning? In Computer Vision– ECCV 2016 Workshops, pages 202–217. Springer, 2016.
最近の研究は、２Ｄ物体検出器を訓練するために合成データのみを使用すること（すなわち、シーン内の物体のためのbounding boxを予測すること）を探求してきた。
以下では、ImageNet上でネットワークを事前トレーニングし、3Dモデルから作成された合成データを使いfine-tuningすることで、実際のデータセットからの少数のラベル付き例を使用したトレーニングよりもPASCALデータセットの検出パフォーマンスが向上することがわかった。
31: Xingchao Peng, Baochen Sun, Karim Ali, and Kate Saenko. Learning deep object detectors from 3d models. In Proceedings of the IEEE International Conference on Computer Vision, pages 1278–1286, 2015.
私たちの手法とは対照的に、コンピュータビジョンにのオブジェクト検出の成果のほとんどは現実的なテクスチャを使用するが、一貫した3Dシーン(coherent 3D scenes)を作成しない。代わりに、オブジェクトは、無地の背景またはランダムに選択された写真に対してレンダリングされる。結果として、私たちのアプローチは私たちのモデルが現実世界との様々な相互作用に必要な3D空間情報を理解することを可能にする。
以下は私たちの手法と最も似ている。
37: Fereshteh Sadeghi and Sergey Levine. (cad) 2 RL: Real single-image flight without a single real image. arXiv preprint arXiv:1611.04201, 2016.
著者らは、さまざまな3Dシーンやテクスチャを持つシミュレータで学習したコントロールへのポリシーマッピングイメージを、現実世界のquadrotorにうまく適用できることを示している。
しかし、彼らの実験（廊下や広場での衝突回避）では、精度の課題に対処する能力を実証していない。私たちのアプローチはまた、正確なカメラ情報やキャリブレーションに頼らず、代わりにシミュレータ内のカメラの位置、向き、そして視野をランダム化する。
彼らのアプローチは約200の事前生成されたマテリアルのデータセットからテクスチャを選択しますが、そのほとんどは現実的なものなのに対し、私たちのアプローチは単純なランダム生成プロセスによって作成されたシーンの数千（またはそれ以上）のテクスチャを用いる。

3. Method

認識する物体を${s_i}_i$とする
私達の目標はj、1つの単眼カメラのフレーム$I_0$を座標系${(x_i, y_i, z_i)}$にマッピングする物体認識器(object detector) $d(I_0)$を学習することである。
加えて、シーンには時々、誤った選択肢のオブジェクト(distractor)が含められており、これは、ネットワークにより無視されなければならない
我々のアプローチは、ドメインランダム化を用いたシミュレーションでディープニューラルネットワークを訓練することである
このセクションの残りの部分では、使用する特定のドメインのランダム化とニューラルネットワークのトレーニング方法について説明する

A. Domain randomization

Domain randomizationの目的は、テスト時にモデルが実世界のデータに一般化できるように、トレーニング時に十分なシミュレートされたばらつきを提供することである。トレーニング中に使用される各サンプルについて、ドメインの以下の点でランダム化する。
- テーブル上の間違った選択肢のオブジェクトの数と形状
- テーブル上のすべてのオブジェクトの位置と質感
- テーブル、フロア、スカイボックス、およびロボットのテクスチャ
- カメラの位置、向き、および視野
- シーン内のライトの数
- ライトの位置、向き、および鏡面反射特性
- 画像に追加されるランダムノイズの種類と量
キャリブレーションされていないカメラからの単一の単眼カメラ画像を使用してオブジェクト位置を推定するので、シミュレーションでテーブルの高さを固定し、効果的に2Dポーズ推定タスクを作成する
ランダムテクスチャは以下の中から選択されます。
（a）ランダムなRGB値
（b）2つのランダムなRGB値の間のグラデーション
（c）2つのランダムなRGB値の間のチェッカーパターン
すべてのオブジェクトのテクスチャは、ランダムに一様に選択される
検出器は、トレーニング時に対象のオブジェクトの色にアクセスすることはできない。サイズと形状だけがアクセスできる
画像のレンダリングのため、MuJoCo Physics Engineのbuilt-inレンダラーを用いる
このレンダラーは写実的であることを意図していないため、テクスチャと照明の物理的にもっともらしい選択する必要は無い
各シーンのテーブルには、0から10個の誤った選択肢のオブジェクト(distractor)が追加されます。本物の画像では床に雑然としたもの（たとえばケーブル）があるにもかかわらず、床の上または背景の中の誤った選択肢のオブジェクト(distractor)は不要です。
我々のメソッドで実世界でのキャリブレーションやカメラ位置を正確にするための方法として、カメラの特性をランダム化しレンダリング画像のトレーニングに使っています
我々は、カメラを手動で、シミュレーションさえr他シーンに配置し、それは、viewpointと対象のフィールドが、大まかに、実際のカメラと一致している
それぞれの学習サンプルは、カメラを初期位置から10x5x10 cm の範囲でランダムに配置している
カメラのアングルは、テーブル上の固定値に向くように計算されており、0.1ラジアンを上限にオフセットされている
この表示されているフィールドは、5%を上限に拡大されている

Fig. 2

実験で用いたモデルのアーキテクチャ。全ての縦棒は、モデルのレイヤーに対応する。ReLUは全体に使われ、max pooling は、それぞれのConvolutionグループの間にある。入力画像は、224x224に縮小され、出力は、オブジェクトの(x,y,z)(x, y, z)(x,y,z)座標が出力される

我々はdeep convolutionニューラルネットワークを用いて我々の物体検出器をパラメータ化する。
特に、図2に示すVGG-16アーキテクチャ［39］の修正版を使用する。
39: Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.
このアーキテクチャーは、さまざまなComputer visionタスクでうまく機能し、事前にトレーニングされた重みを幅広く利用できるため、このアーキテクチャーを選択した。
標準のVGG畳み込みレイヤを使用しますが、サイズが256と64の、より小さい完全接続レイヤを使用し、ドロップアウトは使用しない。
大部分の実験では、ImageNetで事前トレーニングして得た重みを使用して、畳み込みレイヤを初期化する。
これは、転移学習を実現するために不可欠であると仮定した。
実際には、ほとんどの場合、ランダムウェイト初期化を使用してもうまくいくことがわかった。
Adam Optimizer ［17］を使用して、ネットワークによって推定されたオブジェクト位置と実際のオブジェクト位置との間のL2損失に関する確率的勾配降下法によって検出器をトレーニングする。
- 17: Diederik Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.
Adamの標準的な1e-3とは対照的に、1e-4前後の学習率を使用すると収束性が向上し、共通のローカル最適条件を回避して、すべてのオブジェクトをテーブルの中央にマッピングできるようになった

IV EXPERIMENTS

A. Experimental Setup

８つの幾何学的対象のそれぞれについて対象検出器を訓練することによって我々のアプローチを評価。
シミュレータでレンダリングするために、各オブジェクトのメッシュ表現を作成。
各トレーニングサンプルは、以下で構成される
（ａ）シミュレートされたテーブル上の（やはり幾何学的オブジェクトセットの中からの）オブジェクトのレンダリングされた画像および１つまたは複数の誤った選択肢のオブジェクト(distractor)
（ｂ）ワールドフレーム内のオブジェクトの重心のデカルト座標に対応するラベル
実験ごとに、2つの学習率（1e-4と2e-4）と3つのバッチサイズ（25、50、および100）の組み合わせを評価して、小さなハイパーパラメータ検索を実行した。
実験の目的は以下のとおり。
（a）誤った選択肢のオブジェクト(distractor)や部分的に隠れた(partial occulusion)場合を含め、実社会での訓練を受けた検出器の位置特定精度を評価する
（b）シミュレーションから現実の世界への移行を達成するために、私たちのアプローチのどの要素が最も重要かを評価する
（ｃ）学習された検出器がロボット操作タスクを実行するのに十分正確であるかどうかを判定する。

B. Localization accuracy

実世界で学習された検出器の精度を評価するために、カメラから70〜105 cmの距離にあるテーブル上の1つ以上の幾何学的オブジェクトの480のWebカメラ画像をキャプチャした
カメラの位置はすべての画像で一定
テーブルの周りの照明条件やシーンの残りの部分は特に気にしていない
（たとえば、すべての画像にロボットの一部と床のテープとワイヤーが含まれている）
テーブル上のグリッドにオブジェクトを配置することによって、画像ごとに1つのオブジェクトのGround Truth位置を測定した。
8つの幾何学的オブジェクトのそれぞれは、データセット内に60のラベル付き画像を持っている。
テーブル上にオブジェクトだけを持つ20
テーブル上に1つ以上の誤った選択肢のオブジェクト(distractor)がある20
そしてオブジェクトが他のオブジェクトによって部分的に隠される20
表1でテストセットでのモデルのパフォーマンスを要約する
- 私たちのオブジェクト検出器は、現実世界で平均1.5 cm以内の精度でオブジェクトの位置を推定することが出来、雑然とした部分的に隠されたオブジェクトが存在してもうまく機能する
- 私たちの訓練を受けた検出器の誤差は0.3 cmから0.5 cm。
- 有望だが、それらはまだシミュレーションされた訓練データにover-fittingしていることに注意
- over-fitting であっても、より高い解像度の画像を使用する単一カメラフレーム［5］を使って、散らかった状態での姿勢推定のための従来の技術における、変換誤差と同程度の精度に匹敵する。
- 1. Alvaro Collet, Manuel Martinez, and Siddhartha S Srinivasa. The moped framework: Object recognition and pose estimation for manip- ulation. The International Journal of Robotics Research, 30(10):1284– 1306, 2011.

表1

C. Ablation study

本手法のさまざまなファクターの重要度をしるため、以下の評価をした
トレーニング画像の数
トレーニングで見られるユニークなテクスチャの数
前処理におけるランダムノイズの使用
トレーニングにおける誤った選択肢のオブジェクト(distractor)の存在
トレーニングにおけるカメラ位置のランダム化
検出モデルでの事前学習済みウェイトの使用
この方法がランダムノイズの使用を除くすべての要因に対して少なくともある程度、必要性があることを見出した。

Fig. 4.

使用された模擬トレーニング画像の数に対する実画像上のテスト誤差の感度。各訓練例は、０〜１０個のディストラクタオブジェクトを有するテーブル上のオブジェクトの単一のラベル付き例に対応する。ライティングとすべてのテクスチャは反復の間にランダム化される。
Fig. 4は、事前に訓練されたモデルと最初から訓練されたモデルに使用される訓練サンプルの数に対する感度を示している
事前に訓練されたモデルを使用して、我々は、５，０００のトレーニングサンプルと同じくらい少ない数で、比較的正確な実世界の検出性能を達成することができるが、性能は約５０，０００サンプルまで改善する。
FIg. 4. はまた、Scratchから訓練された（すなわち、事前訓練されたImageNet重みを使用せずに）モデルの性能と比較する。
事前学習が現実の世界に一般化するために不可欠であろうと私たちの仮説がただしくないことが判明した。
大量のトレーニングデータを使用すると、ランダムウェイト初期化は、事前にトレーニングされたウェイト初期化と同様に、実世界への転送でほぼ同じパフォーマンスを達成できる。
与えられたオブジェクトに対する最良の検出器は、しばしばランダムな重みで初期化されたものだった。
ただし、事前にトレーニングされたモデルを使用すると、使用するトレーニングデータが少なくてもパフォーマンスが大幅に向上する
Fig. 5.は、固定数（10,000）のとレーニンサンプルについて、トレーニングされたときのシーンの固有のテクスチャ化の数に対する感度を示す。
１，０００個未満のテクスチャを使用すると性能が著しく低下することを発見した。
これは、本実験では、（ランダムディストラクタおよびオブジェクト位置に加えて）多数のランダムテクスチャを使用することが転移を達成するために必要であることを示す。
トレーニングで1,000個のランダムテクスチャを使用した場合、10,000個の画像を使用した場合のパフォーマンスは1,000個の画像のみを使用した場合のパフォーマンスに匹敵する。

Fig. 5.

テクスチャのランダム化の量に対する感度。いずれの場合も、検出器は1万個のランダムなオブジェクト位置と誤った選択肢のオブジェクト(distractor)の組み合わせを使用してトレーニングされたが、指定された数の固有のテクスチャ化と照明条件のみが使用された。

表2

表2は、トレーニングにおいてランダムノイズ、ディストラクタ、およびカメラランダム化が除去されたときのアルゴリズムの性能を調べる。
訓練中にディストラクタを取り入れることは、実社会のディストラクタへの回復力にとって重要。
カメラの位置をランダム化しても一貫してわずかな精度の向上が得られますが、それがなくてもかなり高い精度が達成可能です。
事前トレーニング中にノイズを追加しても、影響はごくわずか。
実際には、トレーニング時に少量のランダムノイズを画像に追加すると収束が改善され、トレーニングが極小値の影響を受けにくくなることがわかった

D. Robotics experiments

シミュレーションで習得したロボットの動作を実際の世界に伝達するための本手法の可能性を実証するために、我々はオブジェクトを雑然として位置特定し、規定の把握を行うためのオブジェクト検出ネットワークの使用を評価した。
我々の2つの最も一貫して正確な検出器について、我々は検出器と既製の運動計画ソフトウェアによって推定された位置を使用して20のますます雑然としたシーンで検出されたオブジェクトを拾う能力を評価した［41］。
1. Ioan A Sucan and Sachin Chitta. Moveit! http://moveit.ros.org.
トレーニングとテスト時間との間のオブジェクト分布の食い違いに対する我々の方法のロバスト性をテストするために、我々のテスト画像のいくつかはトレーニング中に見られない向きに置かれたディストラクタを含む（例えば、その側面に置かれた六角プリズム）。
我々はパイプラインをFetchロボットに展開し［49］、ターゲットオブジェクトがかなり隠れている非常に雑然としたシーンを含め、40回の試行のうち38回でターゲットオブジェクトを検出して拾い上げることができたことを発見しました。訓練された検出器は、対象物体の色についての事前の情報を持たず、その形状と大きさだけを持ち、同じ色の他の物体に近接して置かれた物体を検出することができることに注意してください。
Melonee Wise, Michael Ferguson, Derek King, Eric Diehr, and David Dymesich. Fetch and freight: Standard platforms for service robot applications. In Workshop on Autonomous Mobile Service Robots, 2016.
非一様なテクスチャを持つ現実世界のオブジェクトに対する我々のオブジェクト検出器の性能をテストするために、我々はYCBデータセット3からスパムの缶をローカライズするためにオブジェクト検出器を訓練しました。訓練時には、缶は幾何学的対象物の注意散漫物と共にテーブルの上に存在していた。
試験時には、幾何学的対象物ディストラクタを使用する代わりに、テーブル上に設定されたYCBから他の食品を配置した。探知機は、以前には見えなかった気晴らしを無視して、10回のうち9回の試行でターゲットを拾うことができました。
図6にロボット把持実験の例を示す。ビデオについては、この論文に関連するウェブページを参照。

Fig. 6. シミュレーションのみで学習したビジョンを使用してオブジェクトをつかむ2つの代表的な実行。対象物検出器ネットワークは関心対象の対象物の位置を推定し、次に運動計画者はその位置で対象物を掴むために単純な一連の運動を計画する。

V. CONCLUSION

シミュレーションでしか訓練されていない物体検出器が、実世界ではクラッタで握りを行うのに十分に高い精度を達成できることを実証した。今後の作業では、この手法を信頼性が高く効果的にして、豊富な操作またはより高い精度を必要とするタスクを実行する方法を探る。
ドメインランダム化を使用して訓練されたオブジェクト検出器の精度を向上させることができる将来の方向性は、以下のとおり。
高解像度カメラフレームの使用
モデルアーキテクチャの選択を最適化する
追加のテクスチャ、ライティング、レンダリングのランダム化をシミュレーションに導入し、より多くのデータをトレーニングする
複数のカメラ視点、立体視、または奥行き情報を取り込む
ドメインのランダム化とドメインの適応化の組み合わせ
ドメインランダム化は、シミュレーションで学んだロボット行動の現実ギャップを埋めることに向けた有望な研究方向。
徹底的な強化学習は大規模な探査と最適化を通してシミュレーションでより複雑な方針を学ぶことを可能にするかもしれない、そして、ドメイン無作為化はそのような方針を実際のロボットに有用にするための重要なツールであるかもしれない。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up