tl;dr
- Mac Studioはメモリを多く必要とする場合コスパが良い
- 処理速度ではNVIDIA GPUに軍配が上がり、リアルタイム性を求めるならNVIDIA GPU一択
- 32Bモデルの結果例:Mac Studio (91万円) 約19TPS、H100 2基搭載サーバー (クラウド年間料金約900万円) 約58TPS → 10分の1以下のコストで3分の1の速度
はじめに
モルフォAIソリューションズでは、AIカメラプロダクトとしてDurantaシリーズ(転倒検知、アナログメーター監視、LLM映像監視)を展開しています。特にLLM映像監視の文脈では、セキュリティ的に映像をクラウドに送信できない、LLMのAPIコストがかかりすぎるといった背景から、オンプレミスでの提供の可能性についても検討を行っています。
ローカル環境で大規模言語モデル(LLM)を実行する際、パラメータ数の多いモデルにとって最大のボトルネックはVRAMになります。
NVIDIAのGPUでいうと、たとえば最近リリースされたRTX PRO 6000は96GBのVRAMで約150万円※かかりますが、これでもH100(94GB, 460万円※)やH200(141GB, 600万円※)などのデータセンター向けのものに比べると価格は低めです。※2026年6月時点の価格.com調べ
一方、Appleは256GBのユニファイドメモリを搭載したM3 Ultra Mac Studioを90万円~115万円で提供しています(CPUやGPUコア数によって異なります)。このメモリ容量は価格面で非常に魅力的ですが、これまでApple Siliconは処理性能でNVIDIAのトップ製品に太刀打ちできませんでした。
しかし、徐々に実用的な速度に近づいており、MLXが複数のフレームワークでサポートされるようになったことで、Mac StudioはローカルLLM推論に魅力的なマシンとなりつつあります。GPUの消費電力が増大し続ける中、より効率的なApple Siliconはオンプレミス展開にも魅力的です。
本記事では、Qwen2.5-VLを用いた動画処理のベンチマークを通じて、Mac Studioと2つのNVIDIA製品を比較します。テキストベースのベンチマークは既に多く存在するため、ここでは特にMac Studioの大容量メモリにより、過度な量子化による出力劣化なしに動画処理を行うケースに着目したいと思います。
ベンチマークタスク
Multi-Camera Action Datasetの5秒間の動画を用い、1、2、3 FPSでフレームを抽出し、LLMに動画の内容を説明させるシンプルなプロンプトを入力としました。これは、LLM(VLM)での監視カメラ映像の常時監視というユースケースを想定したものです。冒頭で述べた通り、セキュリティ観点でのローカルでのモデル実行を行い、これを実現するためのハードウェアコストと処理性能(入力処理速度、出力処理速度、総処理時間)を実際に測定し、オンプレミスでの提供可能性についてコストパフォーマンスを確認していきます。
すべてのベンチマークで同じ動画とプロンプトを使用し、FPS設定ごとに1動画あたり1571、3875、6179トークンの入力となります。モデルサイズは7Bパラメータと32Bパラメータをテストし、出力トークン数は128と256に制限して処理時間を比較しました。理想的には、5秒の動画は5秒以内に処理されるべきで、これにより常時リアルタイム監視が可能となります。
ベンチマーク対象ハードウェア・ソフトウェア
-
Mac Studio M3 Ultra
-
RTX 6000 Ada
- 4基のRTX 6000 Ada 48GB、2基のAMD EPYC 9654を搭載したサーバーマシン(1000万円弱)
- テストしたモデルサイズはより少ないGPU枚数でも実行可能です (7Bモデルは1基、32Bモデルは2基)
- 推論にはvllm v0.8.2、NVIDIAドライバ560.35.05、CUDA 12.1、パラメータは
--dtype bfloat16 --tensor-parallel-size 4
- ベンチマーク中の消費電力は各GPUあたり100~285W
- 4基のRTX 6000 Ada 48GB、2基のAMD EPYC 9654を搭載したサーバーマシン(1000万円弱)
-
H100
- クラウドインスタンスで1・2基のH100 80GB、25・50 vCPUコア(Xeon Platinum 8480+)、7Bモデルは1GPU、32Bモデルは2GPUインスタンスを使用(1年間料金約900万円)
- 推論にはvllm v0.8.2、NVIDIAドライバ570.124.06、CUDA 12.1、2GPUの場合は
--dtype bfloat16 --tensor-parallel-size 2
- ベンチマーク中の消費電力は各GPUあたり250~430W
ベンチマーク結果
- vllmは入力をキャッシュするため、256トークン出力時の処理時間は実際の性能を正確に反映していませんが、キャッシュ性能の参考として掲載しています。プロンプト処理TPS(1秒に処理されるトークン数)値は省略
- 7Bモデルは一部の動画で最大の128または256トークンを出力しなかったため、処理時間に若干の偏りがあります
- 7BモデルはH100 1基、32Bモデルは2基、RTX 6000 Adaはすべてのケースにおいて4基を使用
プロンプト処理TPS
H100はプロンプト処理速度で圧倒的なリードを示し、Mac Studioの30倍以上の速さです。Mac Studioは入力トークン数が増えると速度が低下する傾向があり、大きなコンテキストでは問題となる可能性があります。32Bモデルでは利用するGPUの数が変わったH100のプロンプト処理速度が他のデバイスに比べて大きく低下しています。入力キャッシュのためGPU系の256出力トークン時の値は省いていますが、出力の長さだけを調整しているためプロンプトの処理速度に影響しないはずで、Mac Studioの結果を見ると期待通り出力トークン数はプロンプト処理速度に影響していません。
生成TPS
出力生成速度では、Mac Studioは他のデバイスに比べて約1/3の速度で遅れを取っています。7BモデルではH100 1基はRTX 6000 4基とほぼ同等の速度を示しています。32Bモデルでは生成速度がさらに低下し、H100は7Bモデル時の約半分、他のデバイスも約1/3に低下します。出力がやや長くなっても生成速度は安定しており、128トークンも256トークンもほぼ同じ結果です。
平均処理時間
H100はRTX 6000に生成速度で負けていましたが、非常に高速なプロンプト処理のため総処理時間でリードをもたらしています。Mac Studioは入力サイズが大きくなると明確に処理速度が悪化し、1FPSでも5秒以内に5秒の動画を処理できず、リアルタイム処理には不向きです。32Bモデルでは長い出力ケースでリアルタイム処理は困難ですが、全体としては出力トークン数による大きな変化は見られません。256出力トークンの結果はGPUベースシステムの処理時間が入力キャッシュの影響を受けるため、あくまでも参考値となります。
結果一覧表
デバイス | パラメーター数 | 出力トークン数 | プロンプト処理TPS | 生成TPS | 平均処理時間 (秒) |
---|---|---|---|---|---|
H100 | 7B | 128 | 16558.38 | 119.65 | 1.94 |
H100 | 7B | 256 | 119.47 | 2.12 | |
H100 | 7B | 128 | 17449.66 | 118.61 | 2.4 |
H100 | 7B | 256 | 118.68 | 1.88 | |
H100 | 7B | 128 | 17635.69 | 118.08 | 2.87 |
H100 | 7B | 256 | 118.01 | 2.18 | |
H100 | 32B | 128 | 5947.60 | 57.74 | 3.40 |
H100 | 32B | 256 | 57.57 | 4.79 | |
H100 | 32B | 128 | 5218.26 | 57.25 | 4.37 |
H100 | 32B | 256 | 57.14 | 5.44 | |
H100 | 32B | 128 | 5232.45 | 57.02 | 5.35 |
H100 | 32B | 256 | 56.85 | 5.99 | |
RTX 6000 Ada | 7B | 128 | 3978.3 | 135.66 | 2.45 |
RTX 6000 Ada | 7B | 256 | 135.4 | 1.98 | |
RTX 6000 Ada | 7B | 128 | 3880.67 | 133.93 | 3.26 |
RTX 6000 Ada | 7B | 256 | 133.83 | 2 | |
RTX 6000 Ada | 7B | 128 | 3807.54 | 131.26 | 4.22 |
RTX 6000 Ada | 7B | 256 | 131.44 | 2.31 | |
RTX 6000 Ada | 32B | 128 | 2468.22 | 41.41 | 4.78 |
RTX 6000 Ada | 32B | 256 | 41.26 | 6.5 | |
RTX 6000 Ada | 32B | 128 | 2397.69 | 41 | 6.1 |
RTX 6000 Ada | 32B | 256 | 40.83 | 6.96 | |
RTX 6000 Ada | 32B | 128 | 2376.67 | 40.51 | 7.32 |
RTX 6000 Ada | 32B | 256 | 40.33 | 7.4 | |
Mac Studio | 7B | 128 | 435.55 | 46.04 | 6.39 |
Mac Studio | 7B | 256 | 436.93 | 45.21 | 9.13 |
Mac Studio | 7B | 128 | 366.54 | 45.5 | 13.39 |
Mac Studio | 7B | 256 | 370.35 | 45.33 | 15.98 |
Mac Studio | 7B | 128 | 311.61 | 44.45 | 22.71 |
Mac Studio | 7B | 256 | 311.83 | 44.21 | 25.46 |
Mac Studio | 32B | 128 | 178.92 | 18.91 | 15.55 |
Mac Studio | 32B | 256 | 179.55 | 18.82 | 22.35 |
Mac Studio | 32B | 128 | 170.96 | 18.37 | 29.63 |
Mac Studio | 32B | 256 | 170.89 | 18.32 | 36.65 |
Mac Studio | 32B | 128 | 156.7 | 17.91 | 46.58 |
Mac Studio | 32B | 256 | 156.3 | 17.86 | 53.87 |
結論
Mac Studioはコストに対してトークン生成速度では十分な性能を示しますが、入力処理時間が依然として課題であり、比較的小さな7Bのモデルサイズでも1FPS 5秒の動画処理に6.39sかかり、リアルタイムでの動画監視では利用できないという結果でした。一方で、後処理のような時間に厳密でないタスクやコスト・電力効率が重要な場合には優れた選択肢です。
対照的に、より高価なNVIDIA製品はリアルタイム処理に十分対応でき、GPU2基でも32Bモデルの処理が可能なため、一般的なGPU8基搭載サーバーなら複数ストリームも並行処理可能です。また、リアルタイム性を求めない場合、入力の処理速度に優れているため効率的に長い動画の処理が可能です。
総論としては、現時点のハードウェアコストでは大規模な動画処理LLMの運用が誰でも気軽にできるレベルにはありません。しかし、Mac Studioはコストパフォーマンスの面で大きな進歩を示しており、トークン生成速度はトップクラスのNVIDIA構成の約1/3ながら、コストは1/10程度です。
NVIDIAも安価でメモリの多い推論用マシンのニーズを満たすように、DGX Sparkを2025年08月より日本にも入荷予定という情報が出ています。Mac Studioに近い価格帯で、128GBのユニファイドメモリを搭載しているためVLMの処理に適していると考えられます。発売後、ベンチマークを更新してMac Studioや他のNVIDIA GPUとどう比較するかを検討したいと思います。