NVIDIAを1枚も使わず訓練した1.6兆パラメータのLongCat-2.0

Posted at 2026-07-05

OpenRouterの利用ランキングを2か月ほど、正体不明の「Owl Alpha」というモデルが上位で走り続けていた。エージェント系のコーディング用途で妙に評判がよく、しかしどこの誰が出しているのかは伏せられたまま。その中身が6月末に明かされた。中国の生活サービス大手Meituanが公開した LongCat-2.0 である。

食事デリバリーの会社がなぜ1.6兆パラメータの巨大言語モデルを、と身構えるところだが、話の芯はそこではない。私がこのリリースで手を止めたのは、ベンチマークの数字でも会社の意外性でもなく、このモデルがNvidiaのチップを1枚も使わずに訓練されたという一点だった。

🐈 まず何が公開されたのか

LongCat-2.0はMixture-of-Experts(MoE、入力ごとに一部の「専門家」ネットワークだけを動かす方式)の言語モデルだ。総パラメータは1.6兆、ただし1トークンあたり実際に計算に使われるのは約48Bに絞られる。コンテキスト長は100万トークン、重みはMITライセンスで、商用利用にも制約がない。GitHubとHugging Faceで配布されている。

GitHub: https://github.com/meituan-longcat/LongCat-2.0
Hugging Face: https://huggingface.co/meituan-longcat

公式のテックブログはモデル名でそのまま読める。

コーディング性能を見ておくと、リポジトリのREADMEが載せている自社計測の比較はこうなっている。

ベンチマーク	LongCat-2.0	GPT-5.5	Gemini 3.1 Pro	Claude Opus 4.8
SWE-bench Pro	59.5	58.6	54.2	69.2
Terminal-Bench 2.1	70.8	73.8	70.7	78.9
SWE-bench Multilingual	77.3	–	76.9	84.8

読み方には注意が要る。GPT-5.5やGemini 3.1 ProのスコアはREADMEでは「各社の公式レポートからの引用」で、LongCat側は自前の統一ハーネスで測っている。つまり土俵が完全に揃った比較ではない。それを差し引いても、SWE-bench Proで先行世代のGPT-5.5やGemini 3.1 Proを上回るのは事実として重い。一方で表に並べたClaude Opus 4.8にははっきり届いていない。「開いた重みで最強」ではなく「開いた重みで、少し前のフロンティアに肩を並べた」というのが誠実な要約だ。

🔧 本当のニュースは、訓練に使ったハードウェア

READMEの記述をそのまま引くと、訓練も大規模デプロイも「AI ASICスーパーポッド」の上だけで完結している。

Both the full training run and the large-scale deployment are built entirely on AI ASIC superpods. Pretraining spans millions of accelerator-days across more than 35 trillion tokens, with no rollbacks or irrecoverable loss spikes.

35兆トークン超、数百万アクセラレータ日規模の事前学習を、ロールバックも回復不能な損失スパイクもなしにやり切った、と書いている。使ったチップの正確な型番はREADMEには無いが、VentureBeatの報道は5万枚規模の中国製ASICクラスタと伝えている。

なぜこれが効くのか。近年のフロンティア級の訓練は、事実上Nvidia GPUとCUDAエコシステムに乗ることが前提だった。輸出規制で最新GPUが手に入りにくい環境で、代替ハードだけで1.6兆パラメータを安定して訓練し切ったという実証は、「Nvidiaがないと最前線の訓練はできない」という暗黙の前提に穴を開ける。数字の勝ち負けよりも、この再現可能性の主張のほうが業界には効く。

LSA:DeepSeekのDSAが引っかかった所を潰しにいく

100万トークンの文脈を扱うと、素朴なAttentionは計算量がトークン数の2乗で膨らむ。そこを間引くのが「疎なAttention」で、LongCat-2.0は独自の LongCat Sparse Attention(LSA) を積んでいる。

面白いのは、彼らが改善対象として名指ししているのがDeepSeek-V3.2のDSA(Lightning Indexer)だという点だ。DSAは「どのトークンに注目するか」を選ぶインデクサ部分に、出力の不連続性とスコアリングの2乗コストという弱点を抱えていた。LSAはそこを、メモリを連続読みに寄せて帯域を稼ぐ工夫、隣接レイヤで注目の傾向が安定する性質を使いインデックス計算を複数レイヤで使い回す工夫、粗く候補を絞ってから細かく選ぶ二段階の絞り込み、という3点で叩く。要は「全トークンを毎回まじめに見るのをやめ、どこを見るかの計算そのものを安くする」。長文コンテキストのコストは注目の中身より注目先を決める処理で膨らみがちなので、狙いは的を射ている。

もう一つ、MoEとは直交する軸でパラメータを増やす N-gram Embedding(135B)を前世代のLongCat-Flash-Liteから継いでいる。MoEの疎性を上げるだけでは頭打ちになる領域を、埋め込み側の拡張で補う設計思想だ。

「オープン」だが、手元で動かす敷居は高い

重みが手に入るとして、では気軽に回せるか。READMEが推奨する構成はこうだ。

python -m sglang.launch_server \
  --model meituan-longcat/LongCat-2.0-FP8 \
  --trust-remote-code \
  --tp 16 \
  --ep 16 \
  --max-running-requests 64 \
  --mem-fraction-static 0.92 \
  --nsa-prefill-backend fa3 \
  --nnodes 2 --node-rank 0 \
  --dist-init-addr <addr>:20000

推奨はH20を16枚、Tensor並列とExpert並列の併用。SGLang側の対応PRもマージ済みで、NPU向けの別ブランチも用意されている。ツール呼び出しのチャットテンプレートも同梱され、Claude CodeやHermesといった既存のエージェントハーネスに組み込む前提で作られている。裏を返せば、MITで「開いて」いても、個人が1台のマシンで気軽に走らせられる代物ではない。ここでの「オープンソース」は、ソースが読めることと自前の推論スタックに載せられることを指すのであって、ローカルで手軽に、という意味ではない。APIやOpenRouter経由で触るのが現実的な最初の一歩になる。

配布状況については一言添えておく。GitHubのREADMEはMITライセンスの重みとFP8版リポジトリを前提に手順を書いているが、公開直後はミラーによって重みファイルがまだ「coming soon」表示の場合もあった。自前デプロイを組む前に、Hugging FaceまたはModelScopeに実ファイルが揃っているかを確認してから動いたほうがいい。

持ち帰れること

このリリースの価値は、リーダーボードの一行ではない。エージェント用途で実運用に耐える1.6兆パラメータ級のモデルが、Nvidia以外のハードだけで安定訓練され、MITで表に出てきた。この組み合わせが新しい。コーディングエージェントを自社の推論基盤に載せたいチームにとって、選択肢が「フロンティアの少し後ろ」まで開いた重みで届くようになった意味は小さくない。まずはOpenRouterでOwl Alpha改めLongCat-2.0を叩き、自分のワークフローでOpus 4.8との差が許容範囲か、実タスクで測ってみるのがいい。数字は自社計測、真価はあなたのリポジトリで出る。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up