LLM-as-a-Judgeを本番評価に使うときの注意点
LLM-as-a-Judgeは、RAGや生成AIアプリケーションの自動評価を大きく前進させました。 しかし、本番評価に組み込むとなると、設計を誤れば「それらしい数値」が独り歩きします。 本稿では...
9 search resultsShowing 1~9 results
You need to log-in
LLM-as-a-Judgeは、RAGや生成AIアプリケーションの自動評価を大きく前進させました。 しかし、本番評価に組み込むとなると、設計を誤れば「それらしい数値」が独り歩きします。 本稿では...
スプレッドシートでのプロンプト管理は確実に破綻する 生成AIを組み込んだシステムの開発において、プロンプトの管理方法をどう設計するかは、プロジェクトの成否を分ける重要な分岐点です。初期のPoC段...
生成AIプロジェクトでRAG(Retrieval-Augmented Generation)を導入するケースは増えています。 しかし、実務でよくあるのがこの状態です。 「なんとなく精度が上がった...
生成AIのコストはモデルの選択だけでは決まりません。設計で決まります。 特に推論コストは、キャッシュ戦略を入れるかどうかで桁が変わることがあります。 本記事では、実務で使う代表的なキャッシュ戦略...
Function Callingの成否はスキーマ設計で決まる Function Callingを前提にしたエージェント設計では、プロンプトよりもJSON Schemaの設計が支配的になります。主...
AIエージェントの評価はどう設計するか?ステップ単位での検証手法 最終出力だけの評価では改善できない AIエージェントの評価を「最終回答が正しいかどうか」だけで行うと、改善の打ち手が見えなくなり...
ベクトル検索の限界は完全一致の取りこぼしにある ベクトル検索単体では、エンタープライズの業務に耐えられないケースが多々あります。 意味的な近さを捉えることには長けていますが、特定の品番、社内固有...
生成AI基盤を構築する際、Azure OpenAIとAWS Bedrockのどちらを選ぶかは、単なる好みでは済みません。 この判断は、後戻りしづらいアーキテクチャ選定です。 本記事では、機能比較...
RAGの精度が上がらないとき、多くの現場で最初に疑われるのはモデルです。 しかし実際には、ボトルネックは「チャンク設計」にあることが少なくありません。 本記事では、chunk size・over...
9 search resultsShowing 1~9 results
Qiita is a knowledge sharing service for engineers.