1. 概要
本記事では、Segment Anything Model、通称SAMシリーズの最新版「SAM 3: Segment Anything with Concepts」の論文を解説します。SAM 3の最大の貢献は、短い名詞句によるテキストや画像例をプロンプトとして与えるだけで、画像・動画内の特定の概念に該当するすべてのオブジェクトを一括で検出・セグメンテーション・追跡できる点です。
この新タスクは「Promptable Concept Segmentation」、略してPCSと名付けられています。加えて、PCSの学習と評価を支えるため、400万種の固有概念ラベルを含む大規模・高品質データセット「SA-Co」も構築されました。SAM 3は画像・動画の双方で既存手法を大幅に上回る精度を達成しています。
2. 研究背景と課題
ピクセル単位で画像を理解するセグメンテーション技術において、Meta社のSAMシリーズは画期的な成果を上げてきました。しかし、従来のモデルには明確な限界がありました。
SAMおよびSAM 2が対象としていたのは「Promptable Visual Segmentation」、略してPVSと呼ばれるタスクです。PVSでは、ユーザーが画像上の特定箇所を「点」や「バウンディングボックス」で指定し、その単一のオブジェクトだけをセグメンテーションします。

図1: 左はSAM 2までの視覚的プロンプトによる単一オブジェクトのセグメンテーション、すなわちPVS。右はSAM 3が導入した概念プロンプトによる同一概念全インスタンスのセグメンテーション、すなわちPCS。
この限界を具体例で示します。防犯カメラの映像から「すべての赤い車」や「すべての歩行者」を抽出したい場合、従来手法では一つ一つの対象を手動でクリックして指定する必要がありました。動画では、新たなオブジェクトがフレームに登場するたびにプロンプトを与え直さなければならず、実用上の大きなボトルネックとなっていました。
具体的には、以下の2つの問題が解決を求められていました:
- 未知の概念の一括認識: 未学習のカテゴリであっても、テキストで指定した概念に合致するオブジェクトを画面内から漏れなく検出する能力。
- アイデンティティの保持: 動画において、検出した複数オブジェクトの同一性をフレーム間で維持しながら追跡する能力。
SAM 3は、これらの課題を解決し、「指定された概念に一致する全インスタンスを、画像内あるいは動画全体にわたって自動的に検出・セグメンテーションする」PCSタスクの実現を目指して開発されました。
3. 提案手法の詳細説明
SAM 3は、未知の概念を検出する検出器Detectorと、時間的一貫性を保つ追跡器Trackerを、単一のバックボーン上に統合したアーキテクチャです。
3.1 SAM 3のアーキテクチャ概要
SAM 3は、画像全体の特徴を抽出するVision Encoder、具体的にはPerception Encoder、略してPEと呼ばれる構造を基盤としており、そこから得られた特徴量を検出器と追跡器の双方で共有します。

図2: SAM 3のアーキテクチャ概要。画像エンコーダで抽出した特徴量をテキストや画像例と融合し、デコーダを通じてマスクを予測する。
3.1.1 検出器とPrompt Fusion
検出器はDETR、すなわちDEtection TRansformerをベースとした構造です。
入力されたテキストや画像例は、テキストエンコーダ等によりトークン化され「プロンプトトークン」となります。Fusion Encoderが、画像特徴量に対してこのプロンプトトークンを用いたクロスアテンションを適用し、条件付けを行います。
その後、デコーダ内のオブジェクトクエリが条件付けられた画像特徴量と相互作用し、各オブジェクトのバウンディングボックスおよびセグメンテーションマスクを出力します。
3.1.2 認識と位置特定を分離する「Presence Head」
オープンボキャブラリー、すなわち未知の単語による検出では、各オブジェクトがプロンプトの概念に合致するかを個別に判定するのは非常に困難です。局所的な情報だけでは、その物体が何であるかを正確に分類できない場合があるためです。
この問題に対し、SAM 3はPresence Headと呼ばれる存在判定ヘッドを導入しました。このモジュールは、オブジェクトごとの分類を行う代わりに、問題を以下の2段階に分解します。
- グローバルな存在予測: 画像全体の中に、プロンプトで指定された概念が存在するかを判定する。
- ローカルな位置予測: 存在する場合に、そのオブジェクトの位置と形状を特定する。
この分離により、認識タスクと位置特定タスクの干渉を回避し、検出精度が大幅に向上しています。
3.1.3 追跡器と時間的曖昧さの解決
動画処理では、初期フレームで検出された各オブジェクトに対してマスクレットと呼ばれるマスク系列が初期化されます。以降のフレームでは、追跡器が前フレームまでの記憶であるMemory Bankを参照しながらオブジェクトの新しい位置を予測します。
動画中では、物体の遮蔽、いわゆるオクルージョンや類似物体の交差により追跡が外れることがあります。SAM 3はこの問題に対し、Periodic Re-Promptingという仕組みを取り入れています。一定フレーム間隔で検出器を再度走らせ、高い確信度で検出されたオブジェクトと現在追跡中のオブジェクトを照合することで、軌道のずれを修正します。
3.2 大規模データエンジンによる学習
SAM 3の性能を支えているのが「データエンジン」と呼ばれるデータ構築パイプラインです。このパイプラインでは、人間とマルチモーダル大規模言語モデルであるMLLMが協調してデータを作ります。
- AIによるラベル提案と難問生成: AIが画像に対して多様な名詞句を提案し、モデルが誤りやすい紛らわしい事例、いわゆるハードネガティブも自動生成します。
- AI検証器: 生成されたマスクの品質や、画面内の対象を網羅できているかを、ファインチューニングしたMLLMが自動検証します。
- 人間の介入: AIが対処困難と判定したケースのみを人間が修正することで、完全手動のアノテーションと比べてスループットを2倍以上に向上させました。
この結果、400万の固有概念と5,200万のマスクを含む高品質データセット「SA-Co/HQ」が完成しました。
4. 評価実験と結果
SAM 3の有効性を検証するため、画像と動画の両方で実験が行われました。評価には、新たに構築した「SA-Co」ベンチマークに加え、LVISなどの既存ベンチマークが使用されています。
4.1 評価指標について
PCSタスクを適切に評価するため、単純な検出精度ではなく、確信度の正確さを示すキャリブレーションも考慮した指標が導入されています。
分類と位置特定を統合した主要指標として、cgF1が提案されました。cgF1はclassification-gated F1の略です。
$$cgF1 = 100 \times pmF1 \times IL_MCC$$
ここで、$pmF1$ は正例データにおけるマスクの位置特定精度を表すF1スコア、$IL_MCC$ は画像レベルで概念が存在するかどうかの二値分類性能を示すマシューズ相関係数であり、−1から1の範囲をとります。
4.2 画像タスクにおける結果

表1に相当する結果の視覚化。SAM 3はLVISおよびSA-Coベンチマークで他手法を上回っている。
ゼロショット、すなわち対象データセットを学習時に使用していない条件での画像セグメンテーションにおいて、SAM 3は以下の結果を出しました。
- LVISデータセット: 従来最高のDINO-Xのmask AP 38.5に対し、SAM 3は48.8を記録。
- SA-Co/Goldベンチマーク: オープンボキャブラリー検出器OWLv2のアンサンブル版のcgF1が24.6であったのに対し、SAM 3は54.1。スコアは2倍以上で、人間のパフォーマンスである約72.8の74%に相当します。
また、テキストに加えて画像例をプロンプトとして追加するインタラクティブ設定では、プロンプトの追加ごとにcgF1が単調に向上し、少数のクリックでエラーを修正できることも確認されました。
4.3 動画タスクにおける結果
動画のPCSタスク、すなわちオープンボキャブラリー動画インスタンスセグメンテーションでも、SAM 3は高い性能を示しました。
表5に相当する結果。SA-Co/VEvalやLVVISなどの動画データセットで最高精度を達成。
- SA-Co/VEvalベンチマークにおいて、GLEEやLLMDetなどのベースライン手法を大きく上回った。
- 公開ベンチマークのLVVISやOVISでも、State-of-the-Artを更新している。
これらの結果から、SAM 3の検出能力と、SAM 2から引き継いだ追跡能力がうまく組み合わさっていることがわかります。
5. 結論と限界
SAM 3は、テキストや画像例による概念プロンプトから、画像・動画内の該当オブジェクトをすべてセグメンテーション・追跡するモデルです。認識と位置特定を分離するPresence Headの導入と、人間とMLLMの協調によるデータエンジンで構築したSA-Coデータセットにより、PCSタスクで既存手法の2倍の精度を達成しました。
ただし、著者らは以下の限界を挙げています。
- ニッチなドメインへの対応: 学習データに含まれない専門的な概念、例えば特定の航空機の型番や微細な医療用語、サーモグラフィ画像などに対しては、ゼロショットでの汎化性能が落ちる。
- 概念プロンプトとインスタンスプロンプトの混在: 概念を探すモードと、特定の個体を修正するモードの切り替えがハードコードされており、両者をシームレスに切り替える機能は未実装。
論文では、合成データのみで新ドメインに適応させるアプローチや、大規模言語モデルと組み合わせて「青いシャツを着た人が持っている傘」のような複雑な指示に対応するSAM 3 Agentについても言及されています。
参考文献
- Carion, N., Gustafson, L., Hu, Y.-T., Debnath, S., Hu, R., Suris, D., ... & Feichtenhofer, C. (2025). SAM 3: Segment Anything with Concepts. Meta Superintelligence Labs.
- Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., ... & Girshick, R. (2023). Segment anything. In Proceedings of the IEEE/CVF international conference on computer vision (pp. 4015-4026).
- Ravi, N., Gabeur, V., Hu, Y.-T., Hu, R., Ryali, C., Ma, T., ... & Feichtenhofer, C. (2024). SAM 2: Segment anything in images and videos. arXiv preprint arXiv:2408.00714.
- Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., & Zagoruyko, S. (2020). End-to-end object detection with transformers. In European conference on computer vision (pp. 213-229). Springer.
- Bolya, D., Huang, P.-Y., Sun, P., Cho, J. H., Madotto, A., Wei, C., ... & Feichtenhofer, C. (2025). Perception encoder: The best visual embeddings are not at the output of the network. arXiv:2504.13181.
- Minderer, M., Gritsenko, A., & Houlsby, N. (2024). Scaling open-vocabulary object detection. arXiv preprint arXiv:2306.09683.
