自己視点画像について調査中

Last updated at 2024-11-06Posted at 2024-05-15

私の駄文よりも以下のCVIMチュートリアルを読むことをお勧めする。

一人称視点映像解析の基礎と応用（CVIMチュートリアル）

「私のブックマーク　一人称視点映像解析　八木　拓真（産業技術総合研究所）」

どちらも八木さんの記事だ。

自己中心画像(egocentric image) についてのデータベースなどを調査中

https://github.com/owenzlz/EgoHOS

pdf

自己視点画像だけではなく、そのときの左右それぞれの腕と手、対象物についてセグメンテーションするライブラリがあります。

EgoHOS はmmsegmentationに大きく依存しています。
mmsegmentation はhttps://github.com/open-mmlab/mmsegmentation 由来のものです。

./EgoHOS/mmsegmentation/pred_all_obj1.sh
./EgoHOS/mmsegmentation/pred_all_obj2.sh
./EgoHOS/mmsegmentation/pred_cb.sh  # contacting boundary を表示する。
./EgoHOS/mmsegmentation/pred_obj1.sh 
./EgoHOS/mmsegmentation/pred_obj1_video.sh
./EgoHOS/mmsegmentation/pred_obj2.sh
./EgoHOS/mmsegmentation/pred_obj2_video.sh
./EgoHOS/mmsegmentation/pred_twohands.sh

video とあるスクリプトでは、保存済みのmp4ファイルを元に処理した結果をmp4ファイルに変換するものです。

可視化には以下のツールvisualize.py を使っています。

上記のスクリプトはそれらを使い分けるためのものになっています。

 python3 visualize.py -h
usage: visualize.py [-h] [--mode MODE] [--img_dir IMG_DIR] [--twohands_dir TWOHANDS_DIR] [--cb_dir CB_DIR] [--obj1_dir OBJ1_DIR] [--obj2_dir OBJ2_DIR] [--vis_dir VIS_DIR]

optional arguments:
  -h, --help            show this help message and exit
  --mode MODE           options: twohands, cb, twohands_obj1, twohands_obj2
  --img_dir IMG_DIR
  --twohands_dir TWOHANDS_DIR
  --cb_dir CB_DIR
  --obj1_dir OBJ1_DIR
  --obj2_dir OBJ2_DIR
  --vis_dir VIS_DIR

表示のmodeは以下の4種類から選ぶようになっています。
twohands
cb(=contact boundaries: 手と対象物との接触している境界と判断される部分)
twohands_obj1(1st interacting object: 手に直接、接している対象物。)
twohands_obj2(2nd interacting object: 手にしている対象物ごしに操作している対象物）

実行結果の例： left arm, right arm の他 intracting object がセグメンテーションされる。

http://vision.soic.indiana.edu/projects/egohands/

図のような４つのシーンでの自己視点画像です。
そのためシーンや被写体の多様性は限定的です。

https://egolifter.github.io/

本論文では、自己中心的センサーからキャプチャされたシーンを、個々の3Dオブジェクトの完全な分解に自動的にセグメント化できる新しいシステム、EgoLifterを紹介する。このシステムは、自然な動き（非スキャン）からキャプチャされた数百のオブジェクトを含むシーンの自己中心的データ用に特別に設計されている。EgoLifterは、3Dシーンとオブジェクトの基礎表現として3Dガウシアンを採用し、弱い監視としてSegment Anything Model (SAM)からのセグメンテーションマスクを使用することで、特定のオブジェクト分類法に依存しない、柔軟で迅速なオブジェクトインスタンスの定義を学習する。自己中心的なビデオにおける動的オブジェクトの課題を扱うために、3D再構成における動的オブジェクトのフィルタリングを学習する過渡予測モジュールを設計する。その結果、3Dオブジェクトインスタンスを、シーン全体を構成する3Dガウシアンの集合体として再構成できる、完全自動のパイプラインを実現した。我々はAria Digital Twinデータセットを用いて新しいベンチマークを作成し、自然な自己中心的入力からのオープンワールド3Dセグメンテーションにおける最先端の性能を定量的に実証した。また、様々な自己中心的活動データセットでEgoLifterを実行し、スケールでの3D自己中心的知覚に対するこの手法の有望性を示しました。https://egolifter.github.io/、ビデオデモと結果をご覧ください。

DeepL.com（無料版）で翻訳しました。

FIRST PERSON (EGOCENTRIC) VISION @ IPLAB

自己視点画像のデータセットへのリンク集です。

EGO-EXO4D	https://ego-exo4d-data.org/#/
EGO-CH-Gaze	https://iplab.dmi.unict.it/EGO-CH-Gaze/
ENIGMA-51	https://iplab.dmi.unict.it/ENIGMA-51/
EgoISM-HOI	https://iplab.dmi.unict.it/egoism-hoi/
EGO4D	https://ego4d-data.org/
TREK-150	https://machinelearning.uniud.it/datasets/trek150/
MECCANO	https://iplab.dmi.unict.it/MECCANO/
OBJ-MDA	https://iplab.dmi.unict.it/OBJ-MDA/
Domain Adaptation Localization	https://iplab.dmi.unict.it/DomainAdaptationLocalization/
EGO-CH-OBJ-SEG	https://iplab.dmi.unict.it/EGO-CH-OBJ-SEG/
UDA-CH	https://iplab.dmi.unict.it/EGO-CH-OBJ-ADAPT/
EPIC-KITCHENS-100	https://epic-kitchens.github.io
EGO-CH	https://iplab.dmi.unict.it/EGO-CH/
EGO-NATURE	http://iplab.dmi.unict.it/EgoNature/
UNICT-VEDI	http://iplab.dmi.unict.it/VEDI/
UNICT-VEDI-POI	http://iplab.dmi.unict.it/VEDI_POIs/
Simulated Egocentric Navigations	http://iplab.dmi.unict.it/SimulatedEgocentricNavigations/
EPIC-KITCHENS-55	https://epic-kitchens.github.io/2020-55
Egocentric Shopping Cart Localization	http://iplab.dmi.unict.it/EgocentricShoppingCartLocalization/
Unsupervised Segmentation of Daily Living Activities	http://iplab.dmi.unict.it/dailylivingactivities
Visual Market Basket Analysis	http://iplab.dmi.unict.it/vmba/
Location Based Segmentation of Egocentric Videos	http://iplab.dmi.unict.it/PersonalLocationSegmentation/
Recognition of Personal Locations from Egocentric Videos	http://iplab.dmi.unict.it/PersonalLocations/

EgoCart: a Benchmark Dataset for Large-Scale Indoor Image-Based Localization in Retail Stores
Retail Stores での自己位置推定可能なデータセット

EPIC-KITCHENS-100
EPIC-KITCHENS-55
この２つは、台所での自己視点画像です。

ENIGMA-51
電気工作の自己視点画像　Microsoft HoloLens 2 headsetが使われている。

Human Hands as Probes for Interactive Object Understanding

github EgoVLP https://github.com/showlab/EgoVLP

EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone

github https://github.com/facebookresearch/EgoVLPv2

ビデオ言語事前学習(VLP)は、様々な視覚タスクや言語タスクへの汎化能力により、ますます重要性を増している。しかし、既存の自己中心的なVLPフレームワークは、別々のビデオエンコーダと言語エンコーダを利用し、タスク固有のクロスモーダル情報を微調整時にのみ学習するため、統一的なシステムの開発が制限されている。本研究では、ビデオと言語のバックボーンに直接クロスモーダル融合を組み込むことで、前世代から大幅に改善された第2世代の自己中心的ビデオ言語事前学習(EgoVLPv2)を紹介する。EgoVLPv2は、事前学習中に強力なビデオ-テキスト表現を学習し、柔軟かつ効率的な方法で異なる下流タスクをサポートするためにクロスモーダル注意モジュールを再利用し、微調整コストを削減します。さらに、我々の提案するバックボーンでの融合戦略は、融合に特化したレイヤーを追加で積み重ねるよりも軽量で計算効率が高い。幅広いVLタスクに関する広範な実験により、EgoVLPv2はすべてのダウンストリームにおいて強力なベースラインを上回る一貫した最先端の性能を達成し、その有効性を実証しています。私たちのプロジェクト・ページはhttps://shramanpramanick.github.io/EgoVLPv2/。

DeepL.com（無料版）で翻訳しました。

github https://github.com/EgocentricVision/EgocentricVision

Ego4D: Around the World in 3,000 Hours of Egocentric Video
Ego4D Web https://ego4d-data.org/

EgoProceL Dataset

手順学習では、タスクを実行するためのキーステップを特定し、その論理的順序を決定する。既存のアプローチでは、手順を学習するために三人称視点のビデオを使用するのが一般的であり、操作対象が小さく見え、しばしば演技者によって遮られるため、大きなエラーにつながる。対照的に、我々は、一人称視点（自中心視点）のウェアラブルカメラから得られた映像は、行動を遮るものがなく、明瞭な視界を提供することを観察している。しかし、(a)装着者の頭の動きによってカメラビューが極端に変化すること、(b)映像の制約がないため、無関係なフレームが存在すること、などの理由から、自分中心の映像からの手順学習は困難である。このため、アクションがほぼ同時に発生し、同じ持続時間であるという現在の最先端手法の仮定は成り立たない。その代わりに、我々は動画間のキーステップ間の時間的対応関係から得られる信号を利用することを提案する。この目的のために、我々は手順学習のための新しい自己教師付きコレスポンデンスカット（CnC）フレームワークを提示する。CnCは手順を学習するために、複数のビデオにわたるキーステップ間の時間的対応を識別し利用する。我々の実験によれば、CnCはベンチマークのProceLデータセットとCrossTaskデータセットにおいて、それぞれ5.2%と6.3%の割合で最先端技術を凌駕した。さらに、エゴセントリックビデオを用いた手順学習のために、我々は130人の被験者が16のタスクを行う62時間のビデオからなるEgoProceLデータセットを提案する。ソースコードとデータセットはプロジェクトページ https://sid2697.github.io/egoprocel/ で入手可能である。

DeepL.com（無料版）で翻訳しました。

EgoObjects

https://github.com/facebookresearch/EgoObjects
pdf

自己中心的視覚データにおける物体理解は、間違いなく自己中心的視覚における基本的な研究テーマである。しかし、既存の物体データセットは、非自己中心的であるかであったり、オブジェクトのカテゴリや視覚的内容および注釈の粒度に限界がある。本研究では、きめ細かなオブジェクト理解のための大規模なエゴセントリックデータセットであるEgoObjectsを紹介する。パイロット版には 50カ国以上から250人の参加者が4つのウェアラブルデバイスを使用して収集した9K以上のビデオつのウェアラブルデバイスを使用し、368のオブジェクトカテゴリから650K以上のオブジェクトアノテーションが含まれている。従来の EgoObjectsは、オブジェクト・カテゴリー・ラベルのみを含む従来のデータセットとは異なり、各オブジェクトに次のような注釈を付けている。は、各オブジェクトにインスタンスレベルの識別子も付与している、 14K以上のユニークなオブジェクトインスタンスが含まれています。EgoObjectsは、背景の複雑さ、周囲の物体、距離など様々な条件下で同じ物体を撮影するように設計されている。背景の複雑さ、周囲のオブジェクト、距離照明、カメラの動き。データ収集と並行して、我々はデータアノテーションを実施した。データセットの増大する性質に対応するためである。に関する研究をブートストラップする。 EgoObjectsの研究をブートストラップするために、以下の4つのベンチマークタスクを提示する。新しいインスタンスレベルと古典的なカテゴリレベルのオブジェクト検出を含む。さらに、2つの新しい継続学習オブジェクト検出タスクも紹介する。データセットとAPIはhttps://github.com/facebookresearch/EgoObjects。

DeepL.com（無料版）で翻訳しました。