pdf GraspNet-1Billion: A Large-Scale Benchmark for General Object Grasping
物体の把持は多くのアプリケーションにとって重要であり、コンピュータビジョンの課題でもある。しかし、乱雑なシーンに対する把持ポーズ検出は、学習データの不足と評価ベンチマークの不足という問題を抱えている。本研究では、統一的な評価システムを備えた大規模な把持ポーズ検出データセットを提供する。このデータセットには、10億以上の把持ポーズを持つ97,280枚のRGB-D画像が含まれています。一方、我々の評価システムは、解析的な計算によって把持が成功したかどうかを直接報告するため、グラウンドトゥルースを網羅的にラベリングすることなく、あらゆる種類の把持ポーズを評価することができる。 さらに、点群入力が与えられた場合、接近方向と操作パラメータを分離して学習するエンドツーエンドの把持ポーズ予測ネットワークを提案する。また、把持のロバスト性を向上させるために、新しい把持親和性フィールドを設計する。我々は、データセットと評価システムが実世界の実験とよく一致することを示すために広範な実験を行い、我々の提案するネットワークが最先端の性能を達成することを示す。 我々のデータセット、ソースコード、モデルは、www.graspnet.net で公開されている。
DeepL.com(無料版)で翻訳しました。
dataset https://graspnet.net/datasets.html
License:
All data, labels, code and models belong to the graspnet team, MVIG, SJTU and are licensed under a Creative Commons Attribution 4.0 Non Commercial License (BY-NC-SA). They are freely available for free non-commercial use, and may be redistributed under these conditions. For commercial queries, please drop an email at fhaoshu at gmail.com and cc lucewu at sjtu.edu.cn .
テストデータでさえ、60GB以上もある。
このような種類のデータセットは、質も量も必要になってきているからだろう。
データセットの中にはDense Annottaion も含まれている。
上記の論文は、単にデータセットを構築するだけではなく、把持姿勢(Grasp pose)の推定をも実施している。
図5. End-to-end ネットワークの概要。(a)N個の点座標を入力とするシーン点群に対して、点エンコーダ・デコーダが点群の特徴を抽出し、C-dim特徴でM個の点をサンプリングする。(b)接近ベクトルはApproachNetによって予測され、(c)円柱領域内の点をグループ化するために用いられる。(d) OperationNetは操作パラメータを予測し、ToleranceNetは把持のロバスト性を予測する。 詳細は本文を参照。