HuggingFaceの MiniMaxAI/MiniMax-M3 を開くと、まず目を引くのはパラメータ表記だ。総パラメータ約428B、しかしアクティブは約23B。MoEとしては珍しくない比率だが、この差がそのまま推論コストの話に直結する。6月1日にAPIだけ先行公開されていたM3の重みが、ここ1〜2日でようやくHuggingFaceに落ちてきた。ライセンスは minimax-community、量子化版もllama.cpp/Ollama向けにすでに19種類が並んでいる。
ただ、428Bという数字も1Mトークンという文脈長も、それ自体は2026年の今もう驚きではない。エンジニアとして読む価値があるのは、その1Mを現実的なコストで回すために入れてきたMSA(MiniMax Sparse Attention)のほうだ。
🧩 MSAは何をしているか
技術レポート(arXiv:2606.13392)によると、MSAはGQA(Grouped Query Attention)の上に載せたブロック単位の疎アテンションだ。仕組みは2段構えになっている。軽量なIndex Branchがkey-valueのブロックにスコアを付け、GQAグループごとに上位k個のブロックだけを選ぶ。続くMain Branchが、選ばれたブロックに対してだけ正確なblock-sparse attentionを計算する。全トークンを見るのをやめて、効きそうな場所だけ厳密に見る、という割り切りである。
効果はレポートの数字に出ている。109Bの構成・1M文脈で測ると、トークンあたりのアテンション計算量は28.4倍削減、H800上のwall-clockでprefillが14.2倍、decodingが7.6倍速いという。それでいて、
MSA performs on par with GQA
と、品質はGQAと同等だと主張する。疎にすれば質が落ちる、という相場に対する反証を出してきた形だ。
ひとつ注意したいのは、この28.4倍などはあくまで109BのGQAベースラインとの比較であって、製品としてのM3(428B)そのものの数字ではない点。GitHubとHFのモデルカード側は、前世代M2との比較でprefill 9倍・decode 15倍、トークンあたり計算量を1/20、と別の数字を出している。ベースラインが違うので単純比較はできないが、桁感としては揃っている。
| 指標 | 出どころ | 比較対象 |
|---|---|---|
| prefill 9倍 / decode 15倍 | M3モデルカード | 前世代M2(1M文脈) |
| prefill 14.2倍 / decode 7.6倍 | 技術レポート | GQAベースライン(109B) |
| per-tokenの計算量 1/20 | M3モデルカード | M2 |
🚀 手元で動かす
vLLMかSGLangがそのまま使える。HF公式の手順はこれだけだ。
pip install vllm
vllm serve "MiniMaxAI/MiniMax-M3"
SGLangなら次の通り。
python3 -m sglang.launch_server --model-path "MiniMaxAI/MiniMax-M3" --host 0.0.0.0 --port 30000
重みだけ先に引いておくなら hf download MiniMaxAI/MiniMax-M3 --local-dir MiniMax-M3。自前で持つのが重ければ、APIは MiniMax-M3 というモデル名で https://api.minimax.io/v1/text/chatcompletion_v2 に投げればいい。
もっとも、428B総パラメータをフル精度で立てられる現場は限られる。アクティブ23Bという設計が効くのはまさにここで、MoEのおかげで1トークンあたりに動く計算は23B級に収まる。重みのVRAM常駐コストは428Bぶん払う必要があるが、計算スループットは23B級。このギャップをどう埋めるかが、ローカルで触る側の最初の悩みになる。19種類の量子化版が公開当日から並んだのは、その需要を見越してのことだろう。
📊 ベンチマークは自己申告だと割り引いて読む
MiniMaxの公式モデルページは、エージェント的なWeb探索を測るBrowseCompでM3が83.5を出し、Opus 4.7(79.3)を上回ったとする。一方でPostTrainBenchは37.1で全体3位、Opus 4.7(42.4)とGPT-5.5(39.3)の後塵を拝している。フロンティアに並ぶ領域と、まだ届かない領域がはっきり分かれているのが正直なところだ。
ここは冷静に見たい。いずれもベンダー自身の計測で、第三者の追試はこれからになる。とはいえ、テキストだけでなく画像と動画をネイティブに扱えるオープンウェイトで、しかも1M文脈をMSAで安く回すという組み合わせを、重み付きで出してきたこと自体が今回の意味だと思う。ロングコンテキストのRAGや、長い動画・ログを丸ごと放り込むエージェントを自前インフラで組みたい層にとっては、検証する価値のある選択肢が一つ増えた。
技術レポートと重みが揃った以上、次に確かめるべきは外部ベンチでのMSAの「同等性」が再現するかどうかだ。疎アテンションが本当にGQAと並ぶのか、長文脈の隅で精度が崩れないのか。そこが第三者の手で確認できて初めて、1Mは実用の数字になる。