【AWS Summit 2025】生成 AI アプリケーションを最適化するインメモリセマンティックキャッシュ

Last updated at 2025-07-03Posted at 2025-07-03

はじめに

2025年6月25,26日に開催された AWS Summitのセッション「生成 AI アプリケーションを最適化するインメモリセマンティックキャッシュ (Level 300)」の内容が面白かったので、紹介します。

このような課題へ対応するために、MemoryDB を活用した耐久性セマンティックキャッシュについて発表がありました。

そもそもセマンティックキャッシュとは何でしょうか。
まず、それぞれの意味を

つまり、「意味的に似た過去の質問とその回答」を保存しておき、
次回以降の同様の質問にはLLMを使わずに、即座に回答できる仕組みです。

キャッシュヒットした場合の挙動は以下のようになります。

以下はキャッシュヒット時のフローです。
MemoryDBに類似質問があれば、LLMを使わず高速に回答ができます。

このアーキテクチャには3者にとってのメリットがあります：

発表ではLLM提供者のコンピューティングリソースの節約についての発言はありませんでしたが、
個人的には、LLM提供者にとってもメリットがあると考えています。

私はAmazon Connectの構築・導入支援を行っていますが、このセッション内容は非常に実用的だと感じました。
Amazon ConnectではFAQ対応や定型的なやりとりが多く、
生成AIを毎回呼び出すよりも、
意味的に近い過去の応答をキャッシュで返せることは非常に効率的だからです。

少し話は反れますが、耐久性セマンティックキャッシュはすべてのユースケースに対応しているとは考えておりません。
FAQやカスタマーサポートなど、「決まった答えが多いシナリオ」にはあっていると考えていますが、
一方で、コード生成や長文生成のようなユースケースには適さないと考えています。

文章生成やコーディングなどのユースケースには 新しいアーキテクチャが出てくる可能性があると思いました。

次回、Amazon Connect × MemoryDBを利用した音声通話での
耐久性セマンティックキャッシュを試そうと思います。

調べたところ、既に去年のre:Inventで発表されていたようですね。
AWS Summit で知ることができ、よいキャッチアップの機会になりました。