1. 概要
家具の組み立てなどを行う際に図面をもとに組み立てを行うシーンの動画を自動でタグ付けする研究。図面と動画の組み立てシーンがペア付けされることでより直感的にユーザーに組み立て工程を示すことができる。
2. 新規性
IKEAの家具のマニュアルとその組み立て動画をYoutubeから集め、IKEA Assembly in the Wild(IAW)というデータセットを公開した。アノテーションはAmazon Mechanical Turkなどを利用し、420の家具に対して1005本の組み立て動画を含んでいる。また、新たなConstructive Lossを提案している。
3. 実現方法
組み立て動画とマニュアル画像の二つを入力として高次元特徴量を抽出し、対照学習(contrastive learning)を用いて1)動画と画像に対する共通する特徴、2)動画間に共通する特徴、3)画像間に共通する特徴をそれぞれ求める。
動画と画像の双方向と、共通する特徴を求めておくことで、図面を入力としたときの動画中の正しい位置が推定できるようにしている。
4. 結果
タスクが特殊なので評価は手動で行っている。既存手法に対して、動画から対応するマニュアル図を探すタスクと、マニュアル図から動画を探すタスクのいずれにおいても高い精度で検索できることを示した。
last updates: June 20 2023