RAGのコストが高い?Intent Filterで70%のトークンを節約する方法
はじめに すべてのユーザーメッセージに対してRAGパイプラインを実行していませんか?「こんにちは」や「ありがとう」といった挨拶にも? それは私が見てきた中で最も早くお金を燃やす方法です。 この記...
13 search resultsShowing 1~13 results
You need to log-in
はじめに すべてのユーザーメッセージに対してRAGパイプラインを実行していませんか?「こんにちは」や「ありがとう」といった挨拶にも? それは私が見てきた中で最も早くお金を燃やす方法です。 この記...
はじめに この記事では、RAG(Retrieval-Augmented Generation)システムにおいて、LLMがトピックを提案する際に発生する幻覚(hallucination)を低減する...
こんにちは。この記事では、RAG と TTS を組み合わせたリアルタイムシステムでのレイテンシ削減にフォーカスし、実運用で使える「バンドル・オーディオ・キャッシュ」手法を紹介します。コード例と運...
1. 問題背景(The Problem) 多くの従来型キャッシュシステムは stateless な前提で設計されています。 つまり、「現在のリクエスト」だけを見ており、過去の文脈を考慮しません。...
Multilingual Vector Search における実践的な設計パターン LLM や RAG を実運用に組み込む中で、Multilingual Embedding は非常に便利な一方、...
RAG(Retrieval-Augmented Generation)を本番環境に導入して気づいたのは、 問題の本質は Embedding や Vector DB ではなく、Caching 戦略...
今のAI界隈で、最も使い倒されている言葉が「エージェント」です。あらゆるチャットボット、ラッパー、ツール呼び出しのデモが、突然「自律的」を名乗り始めました。 しかし実際の開発現場では、見落とされ...
AIの「読む力」と「書く力」の違いをわかりやすく解説 ChatGPTのようなAIを使っていて、こんな風に思ったことはありませんか? 「このAI、話を理解できるし、回答も人間みたいに上手…一種類だ...
「このプロジェクトの資料、どこにありますか?」 「……全部だよ」 エンジニアなら、一度は聞いたことがあるセリフだと思います。 エンジニアあるある:資料が多すぎ問題 新しいプロジェクトに参加した初...
Retrieval-Augmented Generation (RAG) とは? LLMの「幻覚(Hallucination)」を解決し、企業AIの必須技術となる仕組み きっとこんなこと、一度は...
こんにちは、みなさん。 今日は、インターネット黎明期や検索機能を作ったことのあるエンジニアなら一度は経験したであろう「ある苦しみ」について話したいと思います。 それは、コンピュータが「文字は理解...
Semantic Caching: AIに「サブ脳」を構築する(そして、なぜそれだけでは不十分なのか) 本番環境(Production)でLLMをデプロイしたことがある人なら、すでに2つの強敵と...
Document Understanding(文書理解)の革命? 複雑なレイアウトを構造化し、RAGの回答精度を劇的に高める仕組み もし前回の記事を読んでいれば、もう分かっているはずだ。Retr...
13 search resultsShowing 1~13 results
Qiita is a knowledge sharing service for engineers.