主旨
Open Vocaburary での物体検出ができる時代がやってきた。
そのライブラリがNVIDIA Jetson上でも動く。
その情報の詳細にたどり着くためのリンクを示す。
GroundingDino
https://github.com/IDEA-Research/GroundingDINO
他のアプリケーションと組合せて画像の加工する例も書かれている。
まず、本家github, 論文を見て、自分のほしいものであるかを確かめよう。
何がうれしいのか
- 今までだと、特定のカテゴリの対象物だけを検出する検出器ばかりだった。
- しかも、学習結果は、カテゴリ番号何番というオブジェクトが見つかったという結果を返すのに十分なだけであって、ネコを検出したからといって"cat" などの自然言語になんら関係性を持たなかった。
- 視覚を含む大規模言語モデルでは、学習後のモデルの中に"cat"などの自然言語の情報を含んでいる。
- そのため、"black cat" というプロンプトを元に、黒猫を見つけることができるようになっている。
groundingDinoについての関連情報
-
qiita 記事GroundingDINOの使い方
- インストールする方法が日本語で書かれている。
-
NVIDIA のGPU 向けの(Jetson 向けでもある)の情報がある。
https://docs.nvidia.com/tao/tao-toolkit/text/ds_tao/dino_ds.html
ということは、これをヒントにしてJetson用として動作させることができる。 -
Grounding DINO のインストールと動作確認(ゼロショットの物体検出とセグメンテーション) (Python,PyTorch を使用)(Windows 上)
- Windows上での動作例が書かれています。
-
Realtime Language-Segment-Anything on Jetson Orin
- Segment Anything Model(SAM) との連携例が書かれています。