0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

MiniMax M3のオープンウェイトが公開、1M文脈を支えるMSAを読む

0
Posted at

HuggingFaceの MiniMaxAI/MiniMax-M3 を開くと、まず目を引くのはパラメータ表記だ。総パラメータ約428B、しかしアクティブは約23B。MoEとしては珍しくない比率だが、この差がそのまま推論コストの話に直結する。6月1日にAPIだけ先行公開されていたM3の重みが、ここ1〜2日でようやくHuggingFaceに落ちてきた。ライセンスは minimax-community、量子化版もllama.cpp/Ollama向けにすでに19種類が並んでいる。

ただ、428Bという数字も1Mトークンという文脈長も、それ自体は2026年の今もう驚きではない。エンジニアとして読む価値があるのは、その1Mを現実的なコストで回すために入れてきたMSA(MiniMax Sparse Attention)のほうだ。

🧩 MSAは何をしているか

技術レポート(arXiv:2606.13392)によると、MSAはGQA(Grouped Query Attention)の上に載せたブロック単位の疎アテンションだ。仕組みは2段構えになっている。軽量なIndex Branchがkey-valueのブロックにスコアを付け、GQAグループごとに上位k個のブロックだけを選ぶ。続くMain Branchが、選ばれたブロックに対してだけ正確なblock-sparse attentionを計算する。全トークンを見るのをやめて、効きそうな場所だけ厳密に見る、という割り切りである。

効果はレポートの数字に出ている。109Bの構成・1M文脈で測ると、トークンあたりのアテンション計算量は28.4倍削減、H800上のwall-clockでprefillが14.2倍、decodingが7.6倍速いという。それでいて、

MSA performs on par with GQA

と、品質はGQAと同等だと主張する。疎にすれば質が落ちる、という相場に対する反証を出してきた形だ。

ひとつ注意したいのは、この28.4倍などはあくまで109BのGQAベースラインとの比較であって、製品としてのM3(428B)そのものの数字ではない点。GitHubとHFのモデルカード側は、前世代M2との比較でprefill 9倍・decode 15倍、トークンあたり計算量を1/20、と別の数字を出している。ベースラインが違うので単純比較はできないが、桁感としては揃っている。

指標 出どころ 比較対象
prefill 9倍 / decode 15倍 M3モデルカード 前世代M2(1M文脈)
prefill 14.2倍 / decode 7.6倍 技術レポート GQAベースライン(109B)
per-tokenの計算量 1/20 M3モデルカード M2

🚀 手元で動かす

vLLMかSGLangがそのまま使える。HF公式の手順はこれだけだ。

pip install vllm
vllm serve "MiniMaxAI/MiniMax-M3"

SGLangなら次の通り。

python3 -m sglang.launch_server --model-path "MiniMaxAI/MiniMax-M3" --host 0.0.0.0 --port 30000

重みだけ先に引いておくなら hf download MiniMaxAI/MiniMax-M3 --local-dir MiniMax-M3。自前で持つのが重ければ、APIは MiniMax-M3 というモデル名で https://api.minimax.io/v1/text/chatcompletion_v2 に投げればいい。

もっとも、428B総パラメータをフル精度で立てられる現場は限られる。アクティブ23Bという設計が効くのはまさにここで、MoEのおかげで1トークンあたりに動く計算は23B級に収まる。重みのVRAM常駐コストは428Bぶん払う必要があるが、計算スループットは23B級。このギャップをどう埋めるかが、ローカルで触る側の最初の悩みになる。19種類の量子化版が公開当日から並んだのは、その需要を見越してのことだろう。

📊 ベンチマークは自己申告だと割り引いて読む

MiniMaxの公式モデルページは、エージェント的なWeb探索を測るBrowseCompでM3が83.5を出し、Opus 4.7(79.3)を上回ったとする。一方でPostTrainBenchは37.1で全体3位、Opus 4.7(42.4)とGPT-5.5(39.3)の後塵を拝している。フロンティアに並ぶ領域と、まだ届かない領域がはっきり分かれているのが正直なところだ。

ここは冷静に見たい。いずれもベンダー自身の計測で、第三者の追試はこれからになる。とはいえ、テキストだけでなく画像と動画をネイティブに扱えるオープンウェイトで、しかも1M文脈をMSAで安く回すという組み合わせを、重み付きで出してきたこと自体が今回の意味だと思う。ロングコンテキストのRAGや、長い動画・ログを丸ごと放り込むエージェントを自前インフラで組みたい層にとっては、検証する価値のある選択肢が一つ増えた。

技術レポートと重みが揃った以上、次に確かめるべきは外部ベンチでのMSAの「同等性」が再現するかどうかだ。疎アテンションが本当にGQAと並ぶのか、長文脈の隅で精度が崩れないのか。そこが第三者の手で確認できて初めて、1Mは実用の数字になる。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?