はじめに
先日の9月12日に行われたイベント
「Microsoft Azure Bootcamp -AI 時代におけるアプリイノベーション-」に参加しました。
本イベントでは、AIがアプリケーション開発に与える影響や、Microsoftの戦略的ビジョンについて詳しく説明されました。
AI技術がどのように設計・開発・展開プロセスを革新するかを学べるセッションで、AIを活用した次世代アプリの構築や既存のソリューションへの統合方法が紹介されました。
本記事では、Azure API Managementのセマンティックキャッシュを使用することで得られるメリットについて解説します。
API Managementとは?
その名の通りAPIを効率的に管理できるサービスで、以下のような特徴があります。
-
リソース使用量の可視化: トークン使用量を追跡し、ユーザー、サービス、サブスクリションごとの詳細な分析を提供
-
リアルタイムモニタリング: 使用状況をリアルタイムで監視し、将来の需要を素早く予測
-
コスト割り当て: チャージバック機能により、リソース使用コストを適切な部門やチームに割り当て可能
例えば、複数のユーザーで共有されるクォータ(容量)がある場合に、
トークンを追跡することで、リソースを誰がどのように使っているのかを可視化することができます。
セマンティックキャッシュとは?
Azure OpenAIとAPI Managementを組み合わせることで、追加のポリシーを利用することができます。
その一つがセマンティックキャッシュです。
セマンティックという言葉の意味はコンピュータが文書や情報の意味を正確に理解し、関連付けや検索を効率化する技術です。
セマンティックキャッシュを利用することで、前にユーザーが入力した質問や答えを保存しておき、似たような質問がきた時にLLMを使わずにすぐに保存された答えを返すことができます。
これにより得られるメリットが二つ挙げられます。
1. 回答速度の向上
キャッシュから回答を返すため、応答速度が劇的に改善されます。
イベントで行われたECサイトの商品検索チャットデモの例を挙げます。
マグカップについてチャットで質問を行いました。
初回の応答時間は1.7秒だったのに対し、
2回目の同じ質問に対しては0.2秒で回答が返されました。
これは約8倍の速度向上です。
応答待ちの時間が短くなることで、ユーザーエクスペリエンスを向上させることができます。
2.コスト削減
同じ質問に対して毎回LLMを呼び出さないことで、APIの呼び出し回数を削減でき、その結果として運用コストが抑えられます。
特にLLMを利用する際には、コストが高くつく場合もあるため、頻繁に行われる質問への対応をキャッシュで済ませることは、サービス提供者にとって大きな利点となります。
終わりに
以上のことから、Azure API ManagementとAzure OpenAIの連携で使えるセマンティックキャッシュという機能は、
よくされる質問に対してキャッシュを活用することで素早く回答を返すだけでなく、コスト削減も期待できるのでユーザーとしても、開発者としても大変役に立つ機能だということがわかりました。
FAQシステム、製品検索など、類似の質問をされる可能性の高い場合に活用していけそうですね!
他にもマルチAIエージェントなど、APIを活用した事例が発表され、今後のAI活用の幅が広がったと感じたイベントでした。