【Data + AI Summit 2026 - セッションレポート】How to Solve the Context Gap 日本語要約｜信頼できるAIエージェントを支える「コンテキスト設計」7つの実践

Last updated at 2026-06-23Posted at 2026-06-23

はじめに

2026年6月15日~18日サンフランシスコ・バーチャルにて開催されるDatabricks社主催の年間最大規模のカンファレンスイベント、「Databricks Data＋AI Summit 2026」（DAIS）が開催されました。
本記事はDAIS2026 How to Solve the Context Gap: Engineering Reliable AI Agents で発表された、信頼できるAIエージェントを構築・スケールさせるための「コンテキスト設計（Context Engineering）」のベストプラクティスに関するセッションレポートになります。

登壇者はDatabricksのForward Deployment Engineer（FDE）チームから、Pradeep Ravi 氏（AI FDE チームマネージャー） と Bader Slimani 氏 の2名。メディア・エンタメ、グローバルエネルギー、人材ソリューションなど多業界での実装経験をもとに、現場で効くコンテキスト管理の知見が共有されました。

本記事はDatabricks公式発表を元にした非公式の日本語要約であり、すべての著作権・知的財産権はDatabricksに帰属します。

忙しい方用（3行まとめ）

「コンテキストは長ければ強い」は誤り：コンテキストウィンドウは数千→1,000万トークンに拡大したが、長くするほど性能は劣化する（＝Context Gap）。
解くべきは「何を・どの形式で・いつ渡すか」：指示／ツール定義／ツール結果／会話履歴という“コンテキストの種類”ごとに最適化する。Tool Search・Progressive Disclosure・Compaction などが具体策。
スケールの鍵は「外部メモリ＋決定論的設計」：エピソード/セマンティックメモリ、Lakebase、Genie Ontology、Unity Catalogガバナンスで本番運用へ。「モデルはもはやボトルネックではない。ボトルネックはモデルを取り巻くハーネス（設計）」。

この記事のポイント（誰向け・何が持ち帰れるか）

誰向け：RAG／AIエージェントを本番運用しようとしているエンジニア・データ基盤担当者
新しさ：「長いコンテキスト＝高性能」という前提への明確な反証と、それを乗り越える具体テクニック群
持ち帰れる示唆：コンテキストを「量」ではなく「種類×設計」で捉え直す視点と、Databricks製品（Lakebase / Genie Ontology / Agent Bricks / Unity AI Gateway）への実装マッピング

背景：なぜ「Context Gap」が生まれるのか

LLMが一度に扱えるトークン量の上限が コンテキストウィンドウ です。これは年々拡大してきました。

時期	コンテキストウィンドウの規模
2020年代初頭	数千トークン
現在	100万〜1,000万トークン

しかしセッション冒頭で投げかけられた問いはこうです。

「コンテキストを長く詰め込むほど、本当に性能は上がるのか？」→ 答えはNo。

Needle in a Haystack（干し草の中の針）が示すこと

長文の中に埋め込んだ情報を取り出せるかを試す古典的テスト「Needle in a Haystack」では、近年のモデルは高精度を達成しています。

ところが、曖昧な質問ペアやディストラクター（注意をそらすノイズ）を加えると、精度は急激に劣化します。しかもこれは特定モデルだけでなく、最先端モデルを含む全モデルファミリーで共通して起こる現象です。劣化のスピードに差はあれど、

「性能はコンテキスト長全体にわたって一様ではない」

という原則は変わりません。これがContext Gapの本質です。

【前半／Bader氏】コンテキストの“種類別”最適化 7つの実践

エージェントのコンテキストウィンドウを埋める要素は、かつては「システムプロンプト＋ユーザー入力」だけでした。しかし現在のツール装備エージェントでは、以下が積み重なります。

システム指示（instructions）
ツール／MCP定義
ツール呼び出し結果
（外部）メモリ
増え続ける会話履歴

これらを種類ごとに最適化するのが本セッションの骨子です。

① 指示（Instructions）：広すぎず・狭すぎず

広すぎる：曖昧で情報不足。モデルが文脈を補えず挙動が定まらない。
狭すぎる：if-else的にエッジケースを全部ハードコード。汎化できなくなる。
ちょうど良い：方向づけに足る具体性は持たせつつ、推論の余地を残す。全エッジケースの列挙ではなく、厳選した代表例（canonical examples）を少数提示。

鉄則：「最小から始めて、計測し、少しずつ足す」。
補助ツールとして MLflow のプロンプト最適化（GEPAアルゴリズム） が紹介されました。

② ツール／MCP定義：名前・説明・スキーマが命

ツールを使う理由は、決定論的で厳密な処理をコードにオフロードするため。計算は計算ツールに任せ、モデルに丸投げしない。Web検索や外部DB読み取りなど、ライブ／外部コンテキストへの拡張にも有効。MCPはこれらを標準化し再利用可能にする仕組み。

ポイントは、ツールの名前・説明・入力スキーマを丁寧に設計すること。これがモデルの「何を・いつ使うか」の判断材料になります。

③ ツール定義はまとめる：注意の競合を避ける

query / get_data / run のように似た役割のツールを乱立させると、モデルの注意（attention）が競合します。

→ 明確な名前・説明・入力スキーマを持つ単一の集約ツールにまとめた方が、モデルは速く正確に選べます。namespaceで明確に分離された少数の良設計ツールを優先しましょう。

④ ツール結果（Returns）：ハルシネーションの主因を断つ

ツール結果はエージェントの幻覚・エラーの大きな発生源。特にマルチエージェント構成で顕著です（参考論文：From Spark to Fire）。会話の10ターン目で、過去のツール結果の誤りが「事実」として扱われてしまう問題が起こります。

実践策：

生の出力（例：20万トークンの巨大ダンプ）をそのまま返さない
暗号のようなエラーメッセージをそのまま戻さない
要約・整形し、型付け・検証してからコンテキストに戻す
エラー時は「列名が不正なので修正して再試行せよ」といったactionableなヒントを返す

⑤ Progressive Disclosure（段階的開示）：会話履歴の肥大化を抑える

急増する会話履歴を抑える鍵が「段階的開示」。

Skills（skills.md形式）：単なるmarkdownだけでなくフォルダ・スクリプトも含み、トークン量は膨らみがち。しかし動的にロードされる。まずフロントマター（最小70トークン程度）だけ読み込み、必要と判断された時だけフル展開。→ 数十のSkillを「1つフル展開する分のコスト」で発見でき、数千トークンの節約に。
Tool Search：全ツールから今のタスクに最も関連するものをモデルに検索させ、全ロードを避ける。
Genie Space Search：裏側でどのGenie Spaceをロードすべきか先に判断し、全Space同時ロードを回避。

⑥ Programmable Scratchpad（プログラム可能なスクラッチパッド）

Anthropicの「Programmatic Tool Calling」に相当する概念。複数ツールを「呼ぶ→テキスト直列化→戻す→次を呼ぶ」と繰り返すのは非効率。

→ モデルにPythonカーネルを与え、ツールの組み合わせ・整形・検証をコード上で行い、最終結果だけをコンテキストに戻す。直列化の往復を削減できます。Databricks内部研究では Memex（Code as Actionファミリー） として紹介。フロンティアモデル・OSSモデル双方で精度が時に2倍、コストは削減という結果が示されました。

⑦ Compaction & マルチエージェント：会話履歴に「何を残すか」

10〜15ターンも進むと、過去の生ツールダンプや冗長なリトライは不要。一方で、過去の意思決定・実装詳細は後のターンで必要になることも。

Compaction：コンテキスト上限に近づいたら要約して再初期化（コーディングツールで見かける挙動）。ただし万能ではなくアルゴリズム依存。重要な決定は手動で新コンテキストに再投入する判断も必要。
マルチエージェント：namespace分離した別エージェント／サブエージェントを空のコンテキストから開始。並列性・速度の利点があるが、複雑性という代償も。単一エージェントで限界に達した時だけ採用。

デモ：Tool Search vs フルカタログ

顧客サクセス向けエージェント（顧客情報取得・解約・更新などのツール群）で比較。

すべてのエージェントの基本は Agent Loop（システム/ユーザーメッセージの配列をループでモデルに渡し、最終回答かツール呼び出しかを判断する）。

観点	フルカタログ投入	Tool Search
精度（数十ツール時）	良好	良好
平均ツール呼び出し回数	基準	+1回（検索分）
トークン使用量	多い	大幅に少ない
数百ツールに拡大時	レイテンシ倍増・トークン急増・精度低下	精度維持・トークン抑制

結論：同じモデルでも、コンテキストへの入力を絞る設計の方が、低コスト・低レイテンシ・高精度（特に複雑タスク・超長文脈で顕著）。

前半の核心メッセージ

「Office QAのようなエンタープライズタスクのベンチマークでは、もはやモデルがボトルネックではない。ボトルネックはモデルを取り巻くハーネス（harness）と、コンテキスト管理である。」

だからこそ Meta Harness や Genie Ontology の発表が重要になる、と後半へ橋渡しされました。

【後半／Pradeep氏】信頼できるエージェントを“スケール”させる

思考実験：「記憶のない人間」

記憶がなければ、あらゆる意思決定をゼロから行うことになり、良い判断はできません。これはエージェントも同じ。設計時に特に注意すべきは2点。

(1) Planning（計画）：巨大プロンプトを投げない

複雑タスクを原子レベル（関数・コード単位）に分解し、各ステップにValidation Gate（検証ゲート）を設ける。1ステップ解けたら次へ進む、という決定論的な進め方にする。

例：リサーチエージェントに巨大プロンプトで「新規性のある研究をして」と頼むとハルシネーションになりがち。代わりにステップ分解してplan.mdに記録し、各ステップを検証する。これがコンテキスト節約にもなる。

(2) Memory（外部メモリ化）：1人用でなくN人用に

スケールにはコンテキストの外部化が必須。人間の記憶になぞらえた2種類：

エピソードメモリ（episodic）：日々の出来事の記録（タイムスタンプ付き）。意思決定時の「例」になる。
セマンティックメモリ（semantic）：学習した「ルール」。
意思決定には- 意思決定には「ルール（semantic）＋例（episodic）」の両方が必要。

個人 vs 組織の使い分けも重要。給与情報を全社に開示したくないように、Unity Catalogで細粒度のアクセス制御を行う。個人データは個人に、組織共通データは全社に。

メモリスケールの実験結果

軽量RAGフレームワーク Memaline で10ドメイン（10 Genie Space）を検証。

人手キュレーションのベースライン精度：5%
メモリを段階的に増やすと精度は70%まで到達
さらに推論ステップ数は20→5に減少 → モデル依存度が下がり、より安価なモデルへの差し替え余地が生まれる

メモリが多いほど推論能力・知能が上がり、かつ安いモデルでも回せるようになる。

Lakebase：ステートフルエージェントの高速バックエンド

Databricksのマネージド Postgres。ストレージとコンピュートを分離したユニークなアーキテクチャにより：

書き込みレイテンシ 5分の1
Scale to Zero：不使用時はゼロにスケールしコスト削減、問い合わせが来たら即スケールアップ

また、コンテキストの課題はエージェントだけでなくクラシカルなML（レコメンド・不正検知・パーソナライズ）にも存在。Feature Serving エンドポイントがリアルタイムにコンテキストを供給します。

Evaluation（評価）：システムでなく「関数単位」で

評価はシステム全体でなく、原子的アクション（関数）単位で行う
MLflow Tracing でコードを計装し、問題箇所をツール呼び出し/メモリ/コンポーネントのどこかまで特定できる可観測性を持つ
LLM-as-a-Judge は有効だが、明確なルーブリックで「測り方」を教え込む必要がある
CI/CD：プロンプトの小変更でも、ゴールデンデータで回帰テスト一式を回し、リグレッション/統合影響を検知
Length-Accuracy Pareto View：長い応答がJudgeを「正しい」と誤認させるのを見抜く手法

「ゼロから作らない」：Databricksマネージドサービスの活用

Agent Bricks Knowledge Assistant：RAGエージェントのGo-toソリューション。コンテキストエンジニアリング/継続学習が組み込み済み。人間は適切な指示と設定をするだけ。
TAO：強化学習による自動最適化。報酬機構＋複数Judge＋フィードバックループで継続学習。グラフではAgent Bricksが継続的計画で自己ベストを更新（77%→80%）。
エージェントからの学習：ドキュメント化されたコンテキストは取り込めるが、個人の頭の中の暗黙知はインタラクションで取り込む。例：生成SQLに対しSMEが「Databricks SQL互換にして」とフィードバック→修正版を生成し、エピソード/セマンティックメモリを構築。

Genie Ontology：スキーマブラインドネスの解消

Genie Spaceはもはやtext-to-SQL専用ではありません。Ontology が中核に。

ワークスペースの全アセット/オブジェクトを自動的に学習
Unity Catalogのビジネスセマンティクスからビジネス文脈を理解
その上にナレッジグラフを構築・インデックス化し、Genie Spaceへ入力

→ スキーマブラインドネスを解消。エージェントは扱うスキーマを最初から把握。「推測する（guessing＝コンテキスト浪費）システム」から「決定論的なシステム（正確な結果・低コスト）」へ。

Genie Spaceの決定論化を支える機能：

Business Metrics：自前の定義済み数式（その場で生成しない）
Dimensions：実行時に適用される次元
Data Modeling：テーブル間のリレーション定義
Trusted Assets：頻出する約50問の質問/SQLを資産化。再生成せず例として再利用（＝トラステッドアセットによるセマンティックメモリ構築）

本番運用のガバナンス

Guardrails：PII等の不適切コンテンツをredact。カスタムポリシーもプロンプトで定義可能
Runaway Agent対策（Unity AI Gateway）：QPM/TPM・予算上限を設定（例：あるチームに月$500の上限）
コーディングエージェントのトークン追跡：「生産性 vs 消費トークン」を常に比較。1トークンもコストである

推奨される実装シーケンス

まず組み込みから：Agent Bricks / Genie / AI Functions / ソリューションアクセラレータ。多くはこれで解決
カスタムが必要なら AI Playground でプロトタイピング：複数モデル・プロンプト・ツール・MCPを試す → 納得したらコードとしてexport → Apps にデプロイ
いきなりコーディングしない。Playgroundで遊んでから反復
既存エージェントがある場合は、Databricks Apps にデプロイしインターフェースを作るだけでテスト可能

去年（DAIS2025）との比較で見る位置づけ

DAIS2025：Agent Bricks など「エージェントをどう作るか／どうスケールさせるか」が中心。
DAIS2026（本セッション）：作れる前提で、「どうすれば信頼でき（reliable）、本番でスケールするエージェントになるか」へ論点が深化。鍵はコンテキスト設計と、それを支えるプラットフォーム（Lakebase / Genie Ontology / Meta Harness / Unity AI Gateway）。

「作る」から「信頼して本番で任せる」へ——この1年の関心の深化が、タイトル Engineering Reliable AI Agents に表れています。

まとめ（この記事の持ち帰り）

長文コンテキスト＝高性能ではない。複雑性が増すと全モデルで精度は劣化する（Context Gap）。
コンテキストは「種類（指示/ツール定義/ツール結果/会話履歴）」ごとに最適化する。Tool Search・Progressive Disclosure・Programmable Scratchpad・Compaction が具体策。
スケールには外部メモリ（エピソード/セマンティック）と決定論的設計が不可欠。Memaline実験では精度5%→70%、推論ステップ20→5。
モデルはボトルネックではない。ハーネス（設計）がボトルネック。
Databricksなら Lakebase / Genie Ontology / Agent Bricks / Unity Catalog / Unity AI Gateway で、設計・メモリ・ガバナンスを一気通貫で実装できる。
実装は組み込み → Playground → Apps の順で。いきなりコードを書かない。

最後に登壇者からの案内として、Databricksがコンテキストエンジニアリングに関する公式コースを公開したとのこと。本テーマを体系的に学びたい方はチェックを推奨します。

お知らせ

ナレッジコミュニケーションでは、Databricks Data + AI Summit 2026 開催に伴い、日本語でのウェビナーや現地レポートを公開しております！

DAIS2026 Recap イベント
現地参加が難しかった方や、主要トピックスを短時間で振り返りたい方向けに、Recapイベントを開催します。
セッションの要点整理や、日本企業での実装観点も交えてご紹介予定です。

▼ 開催概要・お申し込みはこちら

ナレッジコミュニケーション DAIS2026 特設サイト
DAIS2026で発表された注目テーマ、関連セッション、実務での活用ポイントを継続的に発信する特設ページです。
イベント情報の整理・社内共有にもご活用いただけます。

Databricks 導入支援サービスサイト
Databricksの導入検討から活用定着まで、課題に応じた支援メニューをご紹介しています。
「何から着手すべきか相談したい」という段階でも、お気軽にご覧ください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up