同じ128KトークンのRULER 128Kベンチを、Claude Opusで動かすと約2,600ドル。マイアミ拠点のSubquadratic Inc.が同じタスクをわずか約8ドルで動かせると主張する新モデル「SubQ」を、2026年5月5日に発表した。11人の研究チームが叩き出したこの数字には、誇張と歴史的価値が同時に含まれる。Transformerが「Attention Is All You Need」で世に出てから9年、誰もが「長コンテキストAIは原理的に高い」と思っていた前提に、SubQが正面から挑んだ格好だ。とはいえ、2024年に累計約$465Mを調達したMagic.devが「1億トークン文脈」を主張したまま静かに消えた前例もある。本記事ではSubQの中核アーキテクチャ「SSA(Subquadratic Sparse Attention)」の仕組み、性能数字、研究者からの批判、そして既にポストTransformerに舵を切っている海外4社の実装を整理する。
なぜ長コンテキストは高いのか──O(n²)を1分で
Transformerは、各トークンが他のすべてのトークンを「見る」仕組みで動く。100トークンなら100×100=1万回の比較、1Mトークンなら1兆回。文脈を2倍にすると計算量は4倍になる──これが「O(n²)」、いわゆる二次計算量の意味だ。長文書を扱うと料金が桁違いに跳ね上がるのは、この掛け算がそのまま効いているからだ。
Subquadratic CEOのJustin Dangelは、SiliconANGLEの取材でこう語っている。「Transformerは過去10年のAIを定義したが、その根本的な限界が、計算量が文脈長の二乗でスケールすることだった」。同社の主張をひと言で要約すれば、「9年続いた前提が、ようやく崩せる目処が立った」ということになる。
Subquadratic Sparse Attentionの仕組み──「全部見ない、内容を見て選んで見る」
SubQが採用したSSA(Subquadratic Sparse Attention)は、コンテンツに応じて「見る場所」を絞り込む仕組みだ。Subquadratic公式の技術ブログによれば、処理は次の3ステップに整理できる。
- 入力トークン列を受け取る
- 各クエリ(検索キー)について、「どの位置に意味のある信号があるか」を中身を見て動的に選ぶ
- 選ばれた位置にだけ正確なアテンション計算を行う
ポイントは「動的に」と「中身を見て」の組み合わせにある。位置だけで決め打ちするsliding window系とも、過去を圧縮状態に丸め込むMamba/RWKV系とも違う発想だ。
「第4の選択肢」──既存の道と何が違うのか
これまでTransformerの計算量問題に対して、研究界では大きく3つの方向の解決策が試されてきた。SubQ公式技術ブログとLessWrong上の批評を組み合わせて並べると、整理は以下のようになる。
| 種類 | 代表 | 何が線形か | 何が課題か |
|---|---|---|---|
| 固定パターン疎注意 | Sliding window | 位置だけで参照先を限定 | パターン外の重要情報を見落とす |
| 状態空間モデル(SSM) | Mamba / RWKV | 過去を固定容量の状態に圧縮 | 過去の特定事実の正確な検索が苦手 |
| ハイブリッド | Jamba / Nemotron 3 Super | SSM層と注意層を交互配置 | 注意層が残るのでO(n²)が支配的に残る |
| SSA | SubQ | 内容を見て位置を動的に選別 | 独立検証がまだない |
これがSubQが自称する「第4の道」の輪郭だ。ただしこれはSubquadratic Inc.側の主張に沿った整理であって、研究者コミュニティからは「結局DeepSeekのスパース・アテンションの焼き直しでは」という指摘も出ている(詳細は後述)。
数字の中身:56倍、325倍、95%
SubQ公式が現在公開している主な数字は3種類。
- 速度:1Mトークンのプリフィル(入力読み込み)で、FlashAttention比56.2倍。計算量(FLOPs)は62.8倍削減
- コスト:RULER 128Kベンチの同じタスクが$8 vs $2,600(対Claude Opus、約325倍の差)
- 精度:RULER 128Kで95.6%(Claude Opus 4.6は94.8%)、SWE-Bench Verifiedで81.8%(Opus 4.6は80.8%)
研究段階の内部モデルは12Mトークン、本にして約120冊分を1リクエストで処理できる、というのが同社の主張だ。
ただし、この数字をそのまま信じる前に
VentureBeatの取材記事とHacker News上の議論を見る限り、研究者コミュニティの反応は冷ややかだ。元OpenAIエンジニアのWill Depueは「ほぼ確実にKimiかDeepSeekのスパース・アテンション・ファインチューンだろう」と指摘した。これに対して、CTOのAlexander Whedonは「オープンソースモデルの重みを出発点に使っている」ことを認めている。
論文と重みは現時点で非公開、公開されたベンチは3つだけで、それぞれ1回の実行で信頼区間がない。MRCR v2では研究モデル83→本番モデル65.9と17ポイントのギャップがあるが、十分な説明は出ていない。
加えて、Magic.devが2024年8月に「1億トークン文脈・1000倍効率」を主張して累計約$465Mを調達したものの、2026年現在そのLTM-2-miniがMagic以外で使われた公開証拠は出ていないという前例がある。今回のSubQが同じ轍を踏まない保証は、まだない。冒頭で歴史的瞬間と書いたが、検証はこれから半年〜1年の話と捉えるのが妥当だろう。
ポストTransformer勢は既に商用に出ている──RWKV、Jamba、Cartesia、Nemotron
SubQそのものはprivate betaで顧客事例が公開されていないが、Transformer以外のアーキテクチャを使うAIスタートアップ──ここでは「ポストTransformer」と呼ぶ──は、既に商用採用が進んでいる。代表的な4件を並べると、この潮流の本気度の感覚がつかめる。
Microsoft × RWKV(米、グローバル):Apache 2ライセンスの線形アテンション実装「RWKV.cpp」が、Windows 10/11(約15億台のデバイス)に同梱されている。Windows CopilotのオンデバイスAI処理でMicrosoftのphiモデルと組み合わせ、低消費電力でファイル検索や多言語対応・バックグラウンド処理を担う。GPUを積まないノートPCでもLLMを動かす必要があったため線形モデルが選ばれた、というのがRWKV公式ブログの説明だ。
AI21 Labs × Jamba(イスラエル、エンタープライズ):Mamba層とTransformer層を交互配置したJambaを商用提供している。AI21公式blogでは、オンライン教育のEduca EdtechがJambaベースのチャットボットで90%超の検索精度を出し、デジタル銀行ではJamba Mini 1.6がGPT-4o相当の品質でprecisionが前バージョン比+21%と報告されている。フランス小売のFnacではデータ分類で出力品質+26%、レイテンシ+40%改善も明示されている。
Cartesia AI × ServiceNow(米、音声):Stanfordの状態空間モデル研究を商用化したCartesiaは、SSMベースの音声モデル「Sonic-3」でTTSレイテンシ90ms前後を実現。ServiceNowのAI Voice Agentsに統合され、顧客サービス・採用・営業の音声基盤を担っている。推論はTogether AIのGPUクラスターでホスティングされ、NVLinkとInfiniBand RDMAで遅延を削り込んでいる。
NVIDIA × Nemotron 3 Super(米、エージェント推論):NVIDIA自身もハイブリッドモデル「Nemotron 3 Super」(120B総パラメータ、12Bアクティブ)をオープン公開している。Mamba-2層で1Mトークン文脈の物理的可能性、Transformer注意層で正確な検索、MoEでパラメータ効率を稼ぐ三本立てで、エージェント推論専用のPinchBenchで85.6%を主張している。
これらを並べると、ポストTransformerは「いつ商用化するか」のフェーズはもう過ぎていて、「どの形が標準になるか」を各社が手を変え品を変え試している段階だと分かる。SubQはその中で「SSMでも、ハイブリッドでもなく、内容依存の疎注意」という札を切った位置取りだ。
この技術を使ったらどんなプロダクトが生まれるか
全契約書を1リクエストで読む契約レビューAI(法務向け縦串)
ベース実例は、リポジトリ全体を1コンテキストに詰めて動かすSubQ Code。発展アイデアとして、法律事務所向けに「全契約書 + 全クライアント対応履歴 + 関連判例」を毎クエリで読み込む契約レビューAIを考える。RAGで断片化していた知識を1パスで通読する点が決定的に違う。Subquadratic Inc.が言及する「特許弁護士の月額AI利用料は$400〜$2,000+」がメインの想定顧客で、同社の主張するコスト1/5が現実なら、月$2,000のOpus利用が月$400級のSubQで賄える計算になる。
RAGパイプラインを長コンテキスト1パスで巻き取るドキュメントAI(既存置換型)
ベース実例はAI21 JambaのEduca Edtech事例(チャットボット精度90%超)。発展アイデアは、社内Q&A・カスタマーサポート・ナレッジベース検索などで「ベクトル検索+リランカー+LLM」で組まれているRAGスタックを、長コンテキスト1パスに巻き取るドキュメントAIだ。「全FAQ・全社内ドキュメント・全過去チケット」を毎回1リクエストに詰め込んでも、単価が桁違いに下がっていれば成立する。差別化は「精度を落とさず開発・運用工数を激減できる」点になる。
5年分の文脈を覚えている個人秘書(新カテゴリ)
ベース実例は、ディープリサーチ系の長コンテキスト検索プロダクトSubQ Search。発展アイデアは、ユーザーごとに「過去5年のメール・カレンダー・Slack・ドキュメント全部」を常時1コンテキストに保持する個人秘書AIだ。「あの2024年の出張で会った人、どの会社だったっけ」というあいまいなクエリに、文脈圧縮なしで答えられる点が新しい。Notion AIやGleanのエンプラサーチが「検索インデックスにあるものを探す」発想であるのに対し、こちらは「全部読んで答える」発想で、想起の自然さが違ってくると考えられる。
いま採用するか、独立検証を待つか
向くケースは、既存RAGで断片化していた知識を1リクエストで読みたい場合、コードベース全体を一度に解析したい場合、精度はOpus並みで十分で推論コストを1桁下げたい場合。
向かないケースは、オープンウェイトが必要な場合、ファインチューンや蒸留が必要な場合、数学や推論など長コンテキスト以外の能力で最高精度が必要な場合、独立検証がない状態で本番投入できない業界の場合。論文と重みの公開、第三者ベンチの再現がいつ揃うかが当面の見極めポイントになる。実運用での導入は、最低でも独立評価が1〜3件出てからが安全だろう。
もっと詳しく知りたい人へ
- Subquadratic公式 - Introducing SubQ:https://subq.ai/introducing-subq
- Subquadratic公式 - How SSA Makes Long Context Practical:https://subq.ai/how-ssa-makes-long-context-practical
- LessWrong - Subquadratic Attentionへの批判:https://www.lesswrong.com/posts/kpSXeMcthtHgnwMx3/debunking-claims-about-subquadratic-attention
- Together AI公式 - Mamba-3:https://www.together.ai/blog/mamba-3
- AI21 Labs公式 - Jamba 1.6:https://www.ai21.com/blog/introducing-jamba-1-6
最後に──ポストTransformerが「いつ」から「どの形で」のフェーズへ
Transformer 9年の前提が破られたかどうか、答えは数ヶ月のうちに出る。独立検証で数字が再現できれば、長コンテキストAIの単価が一桁変わり、RAGパイプラインの設計、エージェントが「覚えていられる範囲」、垂直特化型SaaSのコスト構造──すべてが書き換わる。再現できなければ、Magic.devの隣にもう1件並ぶだけになる。
ただ、どちらに転んでも、Microsoft・AI21・Cartesia・NVIDIAの動きを見る限り、ポストTransformerは既に「いつ商用化するか」ではなく「どの形が標準になるか」のフェーズに入っている。SubQはその一つの賭けだ。あなたの業務で「文脈を圧縮せずに丸ごと渡せたら、何が変わるだろうか」──この問いから、次のプロダクトの設計が始まる。
参考文献
- Subquadratic公式 - Introducing SubQ: The First Fully Subquadratic LLM https://subq.ai/introducing-subq
- Subquadratic公式 - How SSA Makes Long Context Practical https://subq.ai/how-ssa-makes-long-context-practical
- SiliconANGLE - Subquadratic launches with $29M to bring 12M-token context windows to AI https://siliconangle.com/2026/05/05/subquadratic-launches-29m-bring-12m-token-context-windows-ai/
- VentureBeat - Miami startup Subquadratic claims 1,000x AI efficiency gain with SubQ model; researchers demand independent proof https://venturebeat.com/technology/miami-startup-subquadratic-claims-1-000x-ai-efficiency-gain-with-subq-model-researchers-demand-independent-proof
- The New Stack - The context window has been shattered: Subquadratic debuts a 12-million-token window https://thenewstack.io/subquadratic-12-million-context-window/
- LessWrong - Debunking claims about subquadratic attention https://www.lesswrong.com/posts/kpSXeMcthtHgnwMx3/debunking-claims-about-subquadratic-attention
- Together AI公式 - Mamba-3 https://www.together.ai/blog/mamba-3
- AI21 Labs公式 - Introducing Jamba 1.6 https://www.ai21.com/blog/introducing-jamba-1-6
- RWKV公式ブログ - RWKV.cpp shipping to half a billion Windows devices https://blog.rwkv.com/p/rwkvcpp-shipping-to-half-a-billion
- Cartesia公式 - Cartesia × ServiceNow customer case study https://cartesia.ai/customers/servicenow
- Together AI公式 - Cartesia customer case study https://www.together.ai/customers/cartesia
- NVIDIA Developer Blog - Introducing Nemotron 3 Super: An Open Hybrid Mamba-Transformer MoE for Agentic Reasoning https://developer.nvidia.com/blog/introducing-nemotron-3-super-an-open-hybrid-mamba-transformer-moe-for-agentic-reasoning/
- Hacker News - SubQ: a sub-quadratic LLM with 12M-token context https://news.ycombinator.com/item?id=48023079
- Magic.dev - 100M Token Context Windows https://magic.dev/blog/100m-token-context-windows
- BigGo Finance - 13-Person Team Challenges Transformer Dominance: New SSA Architecture Slashes Computing Costs 1,000x, Costs Just 5% of Claude Opus https://finance.biggo.com/news/hkOH_Z0B-PfaobXff2cJ