プロダクトの内製化やモダナイズの苦労話、成功体験、失敗談、あるあるをシェアしよう！ by TRAILBLAZER Advent Calendar 2025

最近大人しいmeta(facebook)が魅せた！sam3でAIの画像・動画理解が更なる深淵へ！

Last updated at 2025-12-18Posted at 2025-12-18

こんにちは！ AI開発スタートアップでエンジニアをしている明生です。

2025年11月、Metaから突如としてリリースされた 「SAM 3 (Segment Anything Model 3)」。皆さんはもう試されましたか？

「SAM 2が出たばかりじゃなかったっけ？」「今度は何ができるようになったの？」

そんな疑問をお持ちの方も多いはずです。実は今回のSAM 3、単なる精度の向上やマイナーチェンジではありません。これまでの「クリックして切り抜く」体験を過去にする、真の「マルチモーダル・セグメンテーション」 への進化を遂げています。

今回は、公式GitHubやHugging Faceの情報を元に、SAM 3の凄さをどこよりも分かりやすく解説します。さらに、記事の後半では 当社がいち早く成功させた「Ryzen AI 395+ Max」を用いたローカル実装 についても、開発画面をチラ見せしながらご紹介します。

そもそも「SAM」とは？（おさらい）

これまでのSAM（Segment Anything Model）の歴史を少し振り返りましょう。

SAM 1 (2023年): 画像内のあらゆる物体を「クリック」や「ボックス」で切り抜けるゼロショットモデルとして登場。セグメンテーションタスクの常識を覆しました。
SAM 2 (2024年): 画像だけでなく「動画」に対応。フレームを跨いで物体を追跡（トラッキング）できるようになり、映像編集や解析の幅が広がりました。

そして、今回の SAM 3 です。

SAM 3 のここが革命的！ 3つの進化ポイント

公式リポジトリ（facebookresearch/sam3）やデモを確認すると、その進化の方向性は明確です。

1. 「言葉」で指示すれば、すべて切り抜ける (Open Vocabulary)

これが最大のアップデートであり、エンジニアとして最も興奮するポイントです。これまでのSAMは、基本的に「ここ」と場所を指定（クリックやボックス指定）する必要がありました。しかし、SAM 3は テキストプロンプト をネイティブに理解します。

例えば、街中の映像に対して：

「赤い車 (red car)」 と入力するだけで、画面内の全ての赤い車を検出し、マスクを生成します。
「黄色いスクールバス (yellow school bus)」 と言えば、それを即座に特定・追跡します。

これは、検出（Detection）、セグメンテーション（Segmentation）、追跡（Tracking）が完全に統合されたことを意味します。もはや「どこにあるか」を人間が教える必要はありません。AIが言葉の意味を理解し、視覚情報と結びつけるのです。

「インパラ」とテキスト入力すれば、インパラだけ抜き出す

2. 画像・動画・3Dを横断する「汎用ビジョン基盤」

SAM 3は、静止画と動画の壁を完全に取り払いました。共通のビジョンバックボーン（Vision Backbone）を使用することで、動画の各フレームでの物体検出と、時間軸に沿った追跡を一貫して行います。

さらに注目すべきは 3D再構成（3D Reconstruction） への対応です。「SAM 3D」とも呼ばれる機能により、2Dの画像や動画から対象物を切り抜くだけでなく、その立体的な形状を推定するタスクにも応用が可能になりました。これにより、XR（AR/VR）開発やロボティクスの分野での活用が一気に現実的になります。

画像、動画、そしてプロンプト入力を統合処理するSAM 3のアーキテクチャ
(Source: Meta AI GitHub)

3. 驚異的な処理効率と軽量化

高機能化すると重くなるのがAIの常ですが、SAM 3は推論効率も最適化されています。 Metaが公開したベンチマーク「SA-Co Dataset」においても、従来モデルを凌駕する精度を出しつつ、エッジデバイスでの動作も視野に入れた設計がなされています。

スタートアップ視点：なぜ SAM 3 が重要なのか？

私たちのようなAIスタートアップにとって、SAM 3の登場は 「開発スピードの劇的な向上」 を意味します。

従来、特定の物体（例えば工場の特定の部品や、農作物の特定品種）を検知するには、大量の教師データを用意して専用モデル（YOLO等をファインチューニング）を作る必要がありました。

しかし、SAM 3の オープンボキャブラリー能力 を使えば、「傷ついた部品」や「熟したトマト」というプロンプトを与えるだけで、ゼロショット（追加学習なし）で高精度な検出・切り抜きが可能になるのです。

これは、PoC（概念実証）の期間を数ヶ月から 「数日」 に短縮するポテンシャルを秘めています。顧客への提案スピードが命であるスタートアップにとって、これほど強力な武器はありません。

Sneak Peek: 自社でのローカル実装事例

さて、ここからは少しマニアックな話になりますが、当社のラボでは早速 SAM 3 のローカル実装を行いました。クラウドAPI経由ではなく、オンプレミスで動かすことは、セキュリティやレイテンシ、コストの観点から非常に重要です。

使用したハードウェアは、話題のモンスター級APU 「AMD Ryzen AI Max+ 395」 です。

CPU: 16コア Zen 5 (Strix Halo)
Memory: 128GB LPDDR5x(8000MT/s)
Overall TOPS: 最大126 TOPS

通常、SAM 3のような巨大モデルを快適に動かすには、高価なH100などのGPUサーバーが必要と思われがちです。しかし、ユニファイドメモリという設計による大規模なメモリ量のRyzen AIマシンを使うことで、クラウドにデータを送信することなく、ローカル環境でサクサクとSAM 3を動かすことに成功 しました。

ただし**「AMD Ryzen AI Max+ 395」**の大きな特徴はユニファイドメモリなので、gpt-oss-120bなど多くのメモリを必要としてローカルで安価に走らせる用途に向いていますが、今回のような軽量メモリ＋速度が求められるような用途には、素直にnvidia(コンシューマー向けGPU含む)の方が適していると思います。

Ryzen AI 395+ MaxにてSAM 3をローカル実行中。推論も非常に高速

現在、このシステムをIoT機器（エッジカメラ）と連携させ、リアルタイムで「言葉で指定して検知する」システムを開発中です。

この 「SAM 3 × Ryzen AI 395+ Max × IoT」 の具体的な実装手順や、推論速度のベンチマーク結果については、次回の記事で詳しくコード付きで解説 する予定です。ぜひフォローしてお待ちください！

まとめ：視覚AIは「理解」のフェーズへ

SAM 3は、単なる切り抜きツールではなく、世界を言葉で理解し、空間として認識するための「目」となるモデルです。

GitHub: facebookresearch/sam3
Hugging Face: facebook/sam3
Demo: Segment Anything Demo

ぜひ、皆さんも公式デモを触ってみてください。そして、その精度の高さに驚いてください。AIの進化は、私たちが想像するよりも遥かに速いスピードで進んでいます。

この記事に関するご意見やご感想、または 「Ryzen AIでの実装について、特にここが知りたい！」 というリクエストがあれば、ぜひコメントでお聞かせください。次回の記事執筆の参考にさせていただきます！

We are hiring! 私たちと一緒に、最先端のAI技術で社会実装に挑戦したいエンジニアを募集中です。興味のある方はプロフィールリンクから！

明生ライジングの実験室より。
https://www.akiorizing.com/

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up