私の駄文よりも以下のCVIMチュートリアルを読むことをお勧めする。
「私のブックマーク 一人称視点映像解析 八木 拓真(産業技術総合研究所)」
どちらも八木さんの記事だ。
自己中心画像(egocentric image) についてのデータベースなどを調査中
https://github.com/owenzlz/EgoHOS
- 自己視点画像だけではなく、そのときの左右それぞれの腕と手、対象物についてセグメンテーションするライブラリがあります。
EgoHOS はmmsegmentationに大きく依存しています。
mmsegmentation はhttps://github.com/open-mmlab/mmsegmentation 由来のものです。
./EgoHOS/mmsegmentation/pred_all_obj1.sh
./EgoHOS/mmsegmentation/pred_all_obj2.sh
./EgoHOS/mmsegmentation/pred_cb.sh # contacting boundary を表示する。
./EgoHOS/mmsegmentation/pred_obj1.sh
./EgoHOS/mmsegmentation/pred_obj1_video.sh
./EgoHOS/mmsegmentation/pred_obj2.sh
./EgoHOS/mmsegmentation/pred_obj2_video.sh
./EgoHOS/mmsegmentation/pred_twohands.sh
video とあるスクリプトでは、保存済みのmp4ファイルを元に処理した結果をmp4ファイルに変換するものです。
可視化には以下のツールvisualize.py を使っています。
上記のスクリプトはそれらを使い分けるためのものになっています。
python3 visualize.py -h
usage: visualize.py [-h] [--mode MODE] [--img_dir IMG_DIR] [--twohands_dir TWOHANDS_DIR] [--cb_dir CB_DIR] [--obj1_dir OBJ1_DIR] [--obj2_dir OBJ2_DIR] [--vis_dir VIS_DIR]
optional arguments:
-h, --help show this help message and exit
--mode MODE options: twohands, cb, twohands_obj1, twohands_obj2
--img_dir IMG_DIR
--twohands_dir TWOHANDS_DIR
--cb_dir CB_DIR
--obj1_dir OBJ1_DIR
--obj2_dir OBJ2_DIR
--vis_dir VIS_DIR
表示のmodeは以下の4種類から選ぶようになっています。
twohands
cb(=contact boundaries: 手と対象物との接触している境界と判断される部分)
twohands_obj1(1st interacting object: 手に直接、接している対象物。)
twohands_obj2(2nd interacting object: 手にしている対象物ごしに操作している対象物)
実行結果の例: left arm, right arm の他 intracting object がセグメンテーションされる。
http://vision.soic.indiana.edu/projects/egohands/
- 図のような4つのシーンでの自己視点画像です。
- そのためシーンや被写体の多様性は限定的です。
https://egolifter.github.io/
本論文では、自己中心的センサーからキャプチャされたシーンを、個々の3Dオブジェクトの完全な分解に自動的にセグメント化できる新しいシステム、EgoLifterを紹介する。このシステムは、自然な動き(非スキャン)からキャプチャされた数百のオブジェクトを含むシーンの自己中心的データ用に特別に設計されている。EgoLifterは、3Dシーンとオブジェクトの基礎表現として3Dガウシアンを採用し、弱い監視としてSegment Anything Model (SAM)からのセグメンテーションマスクを使用することで、特定のオブジェクト分類法に依存しない、柔軟で迅速なオブジェクトインスタンスの定義を学習する。自己中心的なビデオにおける動的オブジェクトの課題を扱うために、3D再構成における動的オブジェクトのフィルタリングを学習する過渡予測モジュールを設計する。その結果、3Dオブジェクトインスタンスを、シーン全体を構成する3Dガウシアンの集合体として再構成できる、完全自動のパイプラインを実現した。我々はAria Digital Twinデータセットを用いて新しいベンチマークを作成し、自然な自己中心的入力からのオープンワールド3Dセグメンテーションにおける最先端の性能を定量的に実証した。 また、様々な自己中心的活動データセットでEgoLifterを実行し、スケールでの3D自己中心的知覚に対するこの手法の有望性を示しました。https://egolifter.github.io/、ビデオデモと結果をご覧ください。
DeepL.com(無料版)で翻訳しました。
FIRST PERSON (EGOCENTRIC) VISION @ IPLAB
自己視点画像のデータセットへのリンク集です。
EGO-EXO4D https://ego-exo4d-data.org/#/
EGO-CH-Gaze https://iplab.dmi.unict.it/EGO-CH-Gaze/
ENIGMA-51 https://iplab.dmi.unict.it/ENIGMA-51/
EgoISM-HOI https://iplab.dmi.unict.it/egoism-hoi/
EGO4D https://ego4d-data.org/
TREK-150 https://machinelearning.uniud.it/datasets/trek150/
MECCANO https://iplab.dmi.unict.it/MECCANO/
OBJ-MDA https://iplab.dmi.unict.it/OBJ-MDA/
Domain Adaptation Localization https://iplab.dmi.unict.it/DomainAdaptationLocalization/
EGO-CH-OBJ-SEG https://iplab.dmi.unict.it/EGO-CH-OBJ-SEG/
UDA-CH https://iplab.dmi.unict.it/EGO-CH-OBJ-ADAPT/
EPIC-KITCHENS-100 https://epic-kitchens.github.io
EGO-CH https://iplab.dmi.unict.it/EGO-CH/
EGO-NATURE http://iplab.dmi.unict.it/EgoNature/
UNICT-VEDI http://iplab.dmi.unict.it/VEDI/
UNICT-VEDI-POI http://iplab.dmi.unict.it/VEDI_POIs/
Simulated Egocentric Navigations http://iplab.dmi.unict.it/SimulatedEgocentricNavigations/
EPIC-KITCHENS-55 https://epic-kitchens.github.io/2020-55
Egocentric Shopping Cart Localization http://iplab.dmi.unict.it/EgocentricShoppingCartLocalization/
Unsupervised Segmentation of Daily Living Activities http://iplab.dmi.unict.it/dailylivingactivities
Visual Market Basket Analysis http://iplab.dmi.unict.it/vmba/
Location Based Segmentation of Egocentric Videos http://iplab.dmi.unict.it/PersonalLocationSegmentation/
Recognition of Personal Locations from Egocentric Videos http://iplab.dmi.unict.it/PersonalLocations/
EgoCart: a Benchmark Dataset for Large-Scale Indoor Image-Based Localization in Retail Stores
Retail Stores での自己位置推定可能なデータセット
EPIC-KITCHENS-100
EPIC-KITCHENS-55
この2つは、台所での自己視点画像です。
ENIGMA-51
電気工作の自己視点画像 Microsoft HoloLens 2 headsetが使われている。
Human Hands as Probes for Interactive Object Understanding
github EgoVLP https://github.com/showlab/EgoVLP
EgoVLPv2: Egocentric Video-Language Pre-training with Fusion in the Backbone
github https://github.com/facebookresearch/EgoVLPv2
ビデオ言語事前学習(VLP)は、様々な視覚タスクや言語タスクへの汎化能力により、ますます重要性を増している。しかし、既存の自己中心的なVLPフレームワークは、別々のビデオエンコーダと言語エンコーダを利用し、タスク固有のクロスモーダル情報を微調整時にのみ学習するため、統一的なシステムの開発が制限されている。本研究では、ビデオと言語のバックボーンに直接クロスモーダル融合を組み込むことで、前世代から大幅に改善された第2世代の自己中心的ビデオ言語事前学習(EgoVLPv2)を紹介する。EgoVLPv2は、事前学習中に強力なビデオ-テキスト表現を学習し、柔軟かつ効率的な方法で異なる下流タスクをサポートするためにクロスモーダル注意モジュールを再利用し、微調整コストを削減します。さらに、我々の提案するバックボーンでの融合戦略は、融合に特化したレイヤーを追加で積み重ねるよりも軽量で計算効率が高い。幅広いVLタスクに関する広範な実験により、EgoVLPv2はすべてのダウンストリームにおいて強力なベースラインを上回る一貫した最先端の性能を達成し、その有効性を実証しています。私たちのプロジェクト・ページはhttps://shramanpramanick.github.io/EgoVLPv2/。
DeepL.com(無料版)で翻訳しました。
github https://github.com/EgocentricVision/EgocentricVision
Ego4D: Around the World in 3,000 Hours of Egocentric Video
Ego4D Web https://ego4d-data.org/
EgoProceL Dataset
- My View is the Best View: Procedure Learning from Egocentric Videos
- github https://sid2697.github.io/egoprocel/
手順学習では、タスクを実行するためのキーステップを特定し、その論理的順序を決定する。既存のアプローチでは、手順を学習するために三人称視点のビデオを使用するのが一般的であり、操作対象が小さく見え、しばしば演技者によって遮られるため、大きなエラーにつながる。対照的に、我々は、一人称視点(自中心視点)のウェアラブルカメラから得られた映像は、行動を遮るものがなく、明瞭な視界を提供することを観察している。しかし、(a)装着者の頭の動きによってカメラビューが極端に変化すること、(b)映像の制約がないため、無関係なフレームが存在すること、などの理由から、自分中心の映像からの手順学習は困難である。このため、アクションがほぼ同時に発生し、同じ持続時間であるという現在の最先端手法の仮定は成り立たない。 その代わりに、我々は動画間のキーステップ間の時間的対応関係から得られる信号を利用することを提案する。この目的のために、我々は手順学習のための新しい自己教師付きコレスポンデンスカット(CnC)フレームワークを提示する。CnCは手順を学習するために、複数のビデオにわたるキーステップ間の時間的対応を識別し利用する。 我々の実験によれば、CnCはベンチマークのProceLデータセットとCrossTaskデータセットにおいて、それぞれ5.2%と6.3%の割合で最先端技術を凌駕した。さらに、エゴセントリックビデオを用いた手順学習のために、我々は130人の被験者が16のタスクを行う62時間のビデオからなるEgoProceLデータセットを提案する。ソースコードとデータセットはプロジェクトページ https://sid2697.github.io/egoprocel/ で入手可能である。
DeepL.com(無料版)で翻訳しました。
EgoObjects
https://github.com/facebookresearch/EgoObjects
pdf
自己中心的視覚データにおける物体理解は、間違いなく自己中心的視覚における基本的な研究テーマである。 しかし、既存の物体データセットは、非自己中心的であるか であったり、オブジェクトのカテゴリや視覚的内容 および注釈の粒度に限界がある。本研究では、きめ細かなオブジェクト理解のための大規模なエゴセントリックデータセットであるEgoObjectsを紹介する。パイロット版には 50カ国以上から250人の参加者が4つのウェアラブルデバイスを使用して収集した9K以上のビデオ つのウェアラブルデバイスを使用し、368のオブジェクトカテゴリから650K以上のオブジェクトアノテーションが含まれている。従来の EgoObjectsは、オブジェクト・カテゴリー・ラベルのみを含む従来のデータセットとは異なり、各オブジェクトに次のような注釈を付けている。 は、各オブジェクトにインスタンスレベルの識別子も付与している、 14K以上のユニークなオブジェクトインスタンスが含まれています。EgoObjectsは、背景の複雑さ、周囲の物体、距離など様々な条件下で同じ物体を撮影するように設計されている。 背景の複雑さ、周囲のオブジェクト、距離 照明、カメラの動き。データ収集と並行して、我々はデータアノテーションを実施した。 データセットの増大する性質に対応するためである。に関する研究をブートストラップする。 EgoObjectsの研究をブートストラップするために、以下の4つのベンチマークタスクを提示する。 新しいインスタンスレベルと古典的なカテゴリレベルのオブジェクト検出を含む。さらに、2つの新しい継続学習オブジェクト検出タスクも紹介する。データセットとAPIはhttps://github.com/facebookresearch/EgoObjects。
DeepL.com(無料版)で翻訳しました。
FishEye camera による自己視点画像
自分の姿勢を3Dで算出している。
CVPR2024の発表
https://x.com/jianwang_mpi/status/1802413126043791660
1X World Model Challenge
https://github.com/1x-technologies/1xgpt
関連記事
-
MMSegmentation に関する記事
OpenMMLab の MMSegmentation を使ってカメラからの入力に対して人物以外の背景を消す
次のX(=旧twitter) は自己視点画像をロボットにむけて集めているもの。
どの場所にデータが公開されるのかな。