LLM・LLM活用 Advent Calendar 2025

BitNet b1.58とKV Cache量子化の仕組み

Posted at 2025-12-25

はじめに

LLMの軽量化技術は、従来の16bitから8bit、4bitへと進化してきましたが、現在はさらにその先を行く 1bit領域 への挑戦や、重み以外のメモリ消費を抑える技術が注目されています。

本記事では、行列演算の常識を変える BitNet b1.58 と、長い文脈（ロングコンテキスト）を扱うために不可欠な KV Cache量子化について詳しく解説します。

通常、LLMの計算は膨大な「行列演算（MatMul）」によって行われます。しかし、Microsoftが発表した BitNet b1.58 は、この常識を根底から覆す可能性を秘めています。

BitNet b1.58では、モデルの重みを -1、0、1 の3つの値のみで表現します。2進数で3つの状態を表すのに必要なビット数がであることから、このように呼ばれています。

MatMul-free（行列乗算の解消）
重みが「-1, 0, 1」のみになると、従来の複雑な浮動小数点の掛け算が不要になります。代わりに、値の足し算と引き算だけで計算が完結するため、エネルギー効率が劇的に向上します。
圧倒的なスループット
計算が単純化されることで、同じハードウェアでもより多くのトークンを高速に生成できるようになります。

第2回で紹介したPTQ（学習後量子化）とは異なり、BitNetは QAT（Quantization-Aware Training）という手法を用います。

学習の段階から「重みは3値になる」という制約を課してトレーニングを行うため、極限まで情報を削っているにもかかわらず、従来のフル精度のモデルに近い性能を維持できるのが大きな特徴です。

モデルの重みをどれだけ軽くしても、長い文章を入力すると別の問題が発生します。それが KV Cache によるVRAMの圧迫です。

LLMは推論時、過去のトークンの計算結果を「Key」と「Value」として保存しておきます。これがKV Cacheです。

文脈長に比例する消費量
入力する文章が長くなればなるほど、KV Cacheのサイズは増大します。
メモリ不足の原因
例えば、Llama 3 70Bで128kトークンを扱う場合、KV Cacheだけで約40GBものメモリを消費します。これは、4bit量子化したモデル本体のサイズ（約35GB）を上回る規模です。

この「第2のメモリボトルネック」を解決するために開発されているのが、KV Cache自体の量子化技術です。

KV Cacheには、特定のチャンネルに大きな値（外れ値）が集中するという特性があります。 KIVI はこの性質を利用します。

2bit量子化の実現
外れ値を含む重要なチャンネルは高精度に保ち、それ以外を大胆に量子化することで、精度を落とさずにKV Cacheのサイズを大幅に削減します。

KVQuant は、KV行列のデータ分布が非常に不規則であることを考慮した手法です。

重みの削減とメモリの最適化、それぞれの技術的な立ち位置を整理します。

技術対象	主な手法	特徴	導入タイミング
モデルの重み	BitNet b1.58	重みを -1, 0, 1 に固定。計算が加減算のみに。	モデルの新規学習時
推論時のメモリ	KV Cache量子化	KIVIやKVQuantなど。過去の計算結果を圧縮。	推論エンジンの最適化時

2025年現在、LLMの軽量化は「既存モデルをどう縮めるか」という段階から、「軽量であることを前提にどう作るか」という段階へシフトしています。

これらの技術が普及することで、巨大な知能を搭載したAIが、私たちの身近なデバイスでより快適に、より安価に動く未来が近づいています。