想定する読者
- 透明物体の3D計測(DEPTHの補完処理)に関心のある人
- この例では、IntelのRealSense のようにRGB、left-IR, right-IR の出力が得られるセンサを前提としている。
- StereoLabsのZED2iなどのセンサには適応できない手法になっている。
ASGrasp: Generalizable Transparent Object Reconstruction and 6-DoF Grasp Detection from RGB-D Active Stereo Camera
B. Experiment Setup
Hardware Setup. We use a 7-DoF Franka Panda arm
with its default two-finger gripper, on which we mount
an active stereo RGB-D camera, Intel Realsense D415.
RealSense のステレオのIR画像を用いている。
Q: なぜ右側の画像の一群が、テーブルを白に固定してしまったのか?
このネットワークでは、RGBと、Left-IR, Right-IRとを入力画像にしている。
RealSenseと同じハードウェア構成を前提にするだろう。
そのため、StereoLabsのZED2iのように、left-RGB, right-RGB, depthの出力構成とは異なっている。
左側:Scene Reconstruction Module
右側: Grasp Detection Module (GSNet)
本論文では、透明物体や鏡面物体を把持する問題に取り組む。この問題は重要であるが、デプスカメラで正確な形状を復元できないため、ロボット工学の分野では未解決のままである。本論文では、RGB-Dアクティブステレオカメラを用いた6自由度把持検出ネットワークASGraspを提案する。ASGraspは、透過的な物体再構成を目的として、2層の学習ベースのステレオネットワークを利用し、乱雑な環境において、材料にとらわれない物体把持を可能にする。既存のRGB-Dベースの把持検出手法が、深度復元ネットワークや深度カメラによって生成された深度マップの品質に大きく依存しているのとは対照的に、我々のシステムは、透明オブジェクトの形状再構成のために生のIRおよびRGB画像を直接利用する能力によって差別化されている。我々は、GraspNet-1Billionをベースとした領域ランダム化により、広範な合成データセットを作成する。我々の実験により、ASGraspはシミュレーションと実世界の両方で、シームレスなシミュレーション-実世界転送により、一般化可能な透明物体把持の90%以上の成功率を達成できることが実証された。我々の手法は、SOTAネットワークを大幅に凌駕し、完全な可視点群入力によって設定された性能上限さえも凌駕する。 プロジェクトページ: https://pku-epic.github.io/ASGrasp
DeepL.com(無料版)で翻訳しました。
この研究では、透明オブジェクトの奥行き推定と把持検出を改善するために、市販製品(例えば、Intel R200やD400ファミリー)で一般的に見られるアクティブステレオカメラからの生のIR観測値を活用することを提案する。我々の洞察は、左右のIR観測値は、誤差の生じやすいステレオマッチングを経る前に、透明オブジェクトの奥行きのオリジナル情報を持ち、一方、RGB情報は余分な形状事前分布を提供することができるということである。そこで我々は、一般的なフロー推定ネットワークに基づいて、RGB画像と2つのIR画像の両方を入力とする、RGBを考慮した学習ベースのステレオマッチングネットワークを考案する。
RGB 画像
left-IR 画像
right-IR 画像
出典 https://github.com/jun7-shi/ASGrasp/tree/main/test_data
私見:
入力画像としてRight IR image, Left IR image, RGB imageを想定している時点で、RealSenseと類似の3Dカメラに対してしか使えないようだ。
そのため、RGBのステレオカメラでは、この手法は使えない。
不満
web ページにある動画例では、テーブルが白で色が均一な状況である。
このため、制御された環境での処理になっているんじゃないかと危惧する。
もっと、込み入った状況で、透明物体の背後の物体が写り込んでいるような状況での動作例を示してほしいところだ。