4
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

AI エージェントの新常識?テキストではなく“KV キャッシュ”でコンテキストを伝搬させる仕組み

Last updated at Posted at 2025-12-16

この記事は ZOZO Advent Calendar 2025 の 17 日目の記事です。

25卒大川 (@o_tomo03) です。機械学習エンジニアとして主にコーディネートにおける「似合う」の R&D に従事しています。

今回は最近読んで衝撃を受け、とても面白かった論文を紹介したいと思います。

TL;DR

  • 複数の LLM を利用して「テキスト」情報を伝搬させながら高度なタスクを解く、近年の AI エージェントは、情報損失やレイテンシーにおいて問題があった
  • 2025 年 10 月に提案された本論文では、KV キャッシュ(内部表現)を直接モデル間で転送・融合する「Cache-to-Cache (C2C)」を提案した
  • これにより、中間テキスト生成を省いて 2 倍高速化し、かつ深い意味情報をそのまま共有することで既存手法より高精度な結果を達成した
  • テキストではなく、脳波での会話 とも言える新しい提案

問題設定: テキスト通信のボトルネック

近年、複数の LLM を協調させて高度なタスクを解く(Multi-LLM systems)が主流になっています。
たとえば、各 LLM の得意分野によって責務を分け、コンテキストを通信させるようなケースに相当します。

しかし、こういった既存の連携手法(Text-to-Text: T2T)には重大な欠点がありました。

  1. 情報のボトルネック

    • 高次元の学習されたリッチな内部表現(KVキャッシュ)を、一度「低次元のテキスト」にデコード(圧縮)し、受け手が再度エンコード(解凍)する必要があります。この過程で細かいニュアンスや意味表現が失われてしまいます。
  2. 曖昧性

    • 私たちが LLM と対話する際、なかなか意図が伝わらないことがあるように、自然言語は曖昧であり、指示の意図・コンテキストが正確に伝わらないことがあります。
  3. レイテンシ(遅延)

    • 送信側のモデルがテキストを生成するには、Transformer の構造上、トークン単位で逐次的に処理する必要があり、通信に時間がかかります。

そこで、清華大学や Infinigence AI らは、「わざわざ人間が解釈できるようにテキスト情報にデコードせずとも、内部表現(KVキャッシュ)をそのまま通信媒体として使えないか?」と考えたわけです。

提案手法:Cache-to-Cache (C2C)

著者らは、LLM の内部記憶である KVキャッシュ(KV-Cache) を通信媒体とする Cache-to-Cache (C2C) を提案しました。

Screenshot 2025-12-17 at 16.24.05.png

1. 基本コンセプト

知識を提供する Sharer(共有者) の KV キャッシュを、回答を行う Receiver(受信者) の KV キャッシュに直接射影・融合します。
これにより、テキスト生成プロセスをスキップし、Sharer の「思考」をそのまま Receiver に移植します。

2. Cache Fuser (キャッシュ融合器)

単純にキャッシュを混ぜても、モデルの構造や表現空間が違うため機能しません。そこで、Cache Fuser という軽量なニューラルネットワークを導入しました。

  • Projection: SharerのキャッシュをReceiverのベクトル空間へ射影。
  • Gating: どの層の情報をどれくらい取り入れるかを学習可能なゲートで制御。
  • Alignment: 異なるトークナイザ間のズレや、異なる層数(深さ)のズレを吸収するアライメント処理を実装。

3. 学習プロセス

LLM 本体(Sharer/Receiver)の重みは凍結し、Cache Fuserのみ を学習させます。これにより、既存の高性能モデルをそのまま活用可能です。

実験結果

Qwen, Llama, Gemma など多様なモデルファミリー(サイズは0.6B〜14B)を用いて検証を行いました。

  • 精度: 単体モデルと比較して平均 +8.5〜10.5% の精度向上。従来のテキスト連携(T2T)と比較しても +3.0〜5.0% 上回りました。
  • 速度: 中間のテキスト生成が不要なため、T2T方式と比較して平均 2.0倍 の高速化(レイテンシ短縮)を実現しました。
  • 汎用性:
    • 異種モデル間: Qwen から Llama へ、といった異なるファミリー間でも有効。
    • サイズ違い: 小規模モデル(Receiver)に大規模モデル(Sharer)のキャッシュを注入することで、小規模モデルの性能が大幅にブーストされることを確認。

感想

  • C2C は、テキスト生成というボトルネックを排除し、KVキャッシュを用いて意味表現を直接伝搬させる点で非常に合理的で面白い提案だと感じました。
  • 一方で、実運用を考えると解釈性が損なわれてしまい、「AI エージェントがどこでつまずいたのか?」のデバッグはかなりし辛くなるため、トレードオフであると思いました。
  • この解決策として、「基本は Cache で高速通信しつつ、人間が見るためのログ用として非同期(バックグラウンド)でテキストデコードする」という実装にすれば、速度と可読性のいいとこ取りができるかもな?と思ったので、この記事を読んでくれた方は論文の材料にでもしていただけたら幸いです(笑)。
  • また、論文では触れられていませんでしたが、KV キャッシュはテキストに比べてデータサイズは大きいので、ネットワーク越しに転送する場合はそこが新たなボトルネックになる可能性もありそうだなと感じました

以上で最近面白かった論文紹介を終わります。まだまだ生成 AI、LLM、AI エージェントの分野は発展途上かと思うので引き続きキャッチアップ・開発頑張っていきます!

4
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?