AI エージェントの新常識？テキストではなく“KV キャッシュ”でコンテキストを伝搬させる仕組み

Last updated at 2025-12-17Posted at 2025-12-16

この記事は ZOZO Advent Calendar 2025 の 17 日目の記事です。

25卒大川 (@o_tomo03) です。機械学習エンジニアとして主にコーディネートにおける「似合う」の R&D に従事しています。

今回は最近読んで衝撃を受け、とても面白かった論文を紹介したいと思います。

TL;DR

近年、複数の LLM を協調させて高度なタスクを解く（Multi-LLM systems）が主流になっています。
たとえば、各 LLM の得意分野によって責務を分け、コンテキストを通信させるようなケースに相当します。

しかし、こういった既存の連携手法（Text-to-Text: T2T）には重大な欠点がありました。

情報のボトルネック
- 高次元の学習されたリッチな内部表現（KVキャッシュ）を、一度「低次元のテキスト」にデコード（圧縮）し、受け手が再度エンコード（解凍）する必要があります。この過程で細かいニュアンスや意味表現が失われてしまいます。
曖昧性
- 私たちが LLM と対話する際、なかなか意図が伝わらないことがあるように、自然言語は曖昧であり、指示の意図・コンテキストが正確に伝わらないことがあります。
レイテンシ（遅延）
- 送信側のモデルがテキストを生成するには、Transformer の構造上、トークン単位で逐次的に処理する必要があり、通信に時間がかかります。

そこで、清華大学や Infinigence AI らは、「わざわざ人間が解釈できるようにテキスト情報にデコードせずとも、内部表現（KVキャッシュ）をそのまま通信媒体として使えないか？」と考えたわけです。

著者らは、LLM の内部記憶である KVキャッシュ（KV-Cache） を通信媒体とする Cache-to-Cache (C2C) を提案しました。

知識を提供する Sharer（共有者） の KV キャッシュを、回答を行う Receiver（受信者） の KV キャッシュに直接射影・融合します。
これにより、テキスト生成プロセスをスキップし、Sharer の「思考」をそのまま Receiver に移植します。

単純にキャッシュを混ぜても、モデルの構造や表現空間が違うため機能しません。そこで、Cache Fuser という軽量なニューラルネットワークを導入しました。

LLM 本体（Sharer/Receiver）の重みは凍結し、Cache Fuserのみ を学習させます。これにより、既存の高性能モデルをそのまま活用可能です。

Qwen, Llama, Gemma など多様なモデルファミリー（サイズは0.6B〜14B）を用いて検証を行いました。

精度: 単体モデルと比較して平均 +8.5〜10.5% の精度向上。従来のテキスト連携（T2T）と比較しても +3.0〜5.0% 上回りました。
速度: 中間のテキスト生成が不要なため、T2T方式と比較して平均 2.0倍の高速化（レイテンシ短縮）を実現しました。
汎用性:
- 異種モデル間: Qwen から Llama へ、といった異なるファミリー間でも有効。
- サイズ違い: 小規模モデル（Receiver）に大規模モデル（Sharer）のキャッシュを注入することで、小規模モデルの性能が大幅にブーストされることを確認。

C2C は、テキスト生成というボトルネックを排除し、KVキャッシュを用いて意味表現を直接伝搬させる点で非常に合理的で面白い提案だと感じました。
一方で、実運用を考えると解釈性が損なわれてしまい、「AI エージェントがどこでつまずいたのか？」のデバッグはかなりし辛くなるため、トレードオフであると思いました。
この解決策として、「基本は Cache で高速通信しつつ、人間が見るためのログ用として非同期（バックグラウンド）でテキストデコードする」という実装にすれば、速度と可読性のいいとこ取りができるかもな？と思ったので、この記事を読んでくれた方は論文の材料にでもしていただけたら幸いです（笑）。
また、論文では触れられていませんでしたが、KV キャッシュはテキストに比べてデータサイズは大きいので、ネットワーク越しに転送する場合はそこが新たなボトルネックになる可能性もありそうだなと感じました

以上で最近面白かった論文紹介を終わります。まだまだ生成 AI、LLM、AI エージェントの分野は発展途上かと思うので引き続きキャッチアップ・開発頑張っていきます！