「デモは動く。PoCも作れた。でも本番に乗らない」
2026年、現場のエンジニアが100回は口にしたセリフです。
スキル管理、メモリ、権限分離、評価、グラウンディング — 本番化で詰む理由はいつも「フレームワークの外側」にあります。
Microsoft Build 2026 で、この「外側」をまるごと製品化したスタックが揃いました。本記事は本番エージェントを実際に組んでデプロイするための実践ガイドです。
結論から言うと
2026年の本番エージェントは、4つのレイヤーを組み合わせて作ります。
- フレームワーク — Microsoft Agent Framework 1.0(GA)。skill / memory / context を「第一級の概念」として扱う
- ホスト実行環境 — Foundry Hosted Agents(6月末までにGA予定)。ハイパーバイザ分離 + エージェント単位の Entra ID
- 知識グラウンディング — Microsoft IQ(Work / Foundry / Fabric / Web)
- 評価 — Adaptive Evaluations。ポリシーを自動テストに変換する
「LLM を呼ぶコード」ではなく、この4層を疎結合に積むのが2026年の正解です。
「フレームワークだけ」「モデルだけ」では本番に乗りません。詰むのは毎回、分離・権限・評価・グラウンディングといった"運用レイヤー"です。
アーキテクチャ全体像
┌─────────────────────────────────────────────┐
│ あなたのエージェント │
├─────────────────────────────────────────────┤
│ ① Framework : Microsoft Agent Framework 1.0 │
│ └ skill / memory / context(第一級) │
├─────────────────────────────────────────────┤
│ ② Runtime : Foundry Hosted Agents │
│ └ Hypervisor分離 / Entra ID / Voice Live │
├─────────────────────────────────────────────┤
│ ③ Knowledge : Microsoft IQ │
│ └ Work / Foundry / Fabric / Web IQ │
├─────────────────────────────────────────────┤
│ ④ Evaluation : Adaptive Evaluations │
│ └ ポリシー → 自動振る舞いテスト │
└─────────────────────────────────────────────┘
▲
│ azd up(ソースコードからデプロイ)
│
Microsoft Foundry(11,000+ モデル)
Claude Opus 4.8 (preview) / Sonnet / Haiku
OpenAI GPT-5.5 (GA: 6月3日)
レイヤー① Microsoft Agent Framework 1.0(GA)
Python と .NET の両方でGAしました。最大の特徴は、skill・context・memory を第一級の概念として設計している点です。これまで各チームが自前で発明していた「記憶」「文脈」「能力」が、フレームワークのプリミティブになりました。
3つのプリミティブ
| プリミティブ | 役割 | 本番でなぜ重要か |
|---|---|---|
| skill | エージェントが実行できる能力(ツール/関数) | 能力の境界=権限・テストの単位になる |
| memory | 会話・タスクをまたいで永続する記憶 | セッション跨ぎの一貫性とパーソナライズ |
| context | 実行時に注入される文脈(ユーザー/業務状態) | グラウンディングと安全性の制御点 |
skill を定義するイメージ
以下はプリミティブの概念を示す擬似コードです。実際のAPI名はSDKのバージョンに従ってください。設計の「形」を掴むために読んでください。
# 擬似コード:skill / memory / context を第一級で扱う
from agent_framework import Agent, skill, Memory, Context
@skill(name="refund_order", description="注文を返金する")
def refund_order(ctx: Context, order_id: str) -> dict:
# context から業務状態・権限を参照(第一級)
if not ctx.policy.allows("refund"):
return {"status": "denied"}
return billing.refund(order_id)
agent = Agent(
model="claude-opus-4-8", # Foundry カタログから選択
skills=[refund_order],
memory=Memory(scope="user"), # ユーザー単位の永続メモリ
)
ポイントは、skill が「テスト・権限・観測の単位」になること。能力を関数として切り出すから、後段の Adaptive Evaluations でそのまま検証できます。
レイヤー② Foundry Hosted Agents(6月末までにGA予定)
「どこで動かすか」を解決するのがホスト実行環境です。現時点(2026年6月)ではGAは6月末までにロールアウト予定で、本番要件をプラットフォーム側で担保します。
- ハイパーバイザ分離のサンドボックス — エージェントごとに強いアイソレーション
- エージェント単位の Entra ID — 「人間の権限」ではなく「エージェントの権限」を発行
-
ソースコードからのデプロイ —
azdでリポジトリをそのままデプロイ - Voice Live / WebSocket — 音声・双方向ストリーミング対応
本番エージェントのセキュリティ事故の多くは「権限の使い回し」が原因です。エージェント専用の Entra ID を発行し、最小権限で動かすことを最初の設計に組み込んでください。人間アカウントの権限を借りるのはアンチパターンです。
デプロイの流れ(azd)
# 1. プロジェクトを初期化
azd init --template foundry-hosted-agent
# 2. エージェント専用 Identity を構成(Entra ID)
azd env set AGENT_IDENTITY refund-agent
# 3. ソースコードからそのままホスト環境へデプロイ
azd up
# → ハイパーバイザ分離のサンドボックスで起動
# → WebSocket / Voice Live エンドポイントが払い出される
「Dockerfile を書いて、レジストリに push して、マニフェストを…」という手順が azd up 一発に畳まれます。インフラではなくエージェントに集中できるのが価値です。
レイヤー③ Microsoft IQ — 知識グラウンディング
エージェントがハルシネーションせず、業務の文脈で正しく答えるためのレイヤーです。用途別に4つに分かれています。
| IQ | 何の知識か | 使いどころ |
|---|---|---|
| Work IQ | 職場のセマンティクス(人・予定・ドキュメント) | 社内アシスタント |
| Foundry IQ | エージェントのナレッジベース | 独自RAGの土台 |
| Fabric IQ Ontology | ビジネスのセマンティクス(業務オントロジー) | 業務データに紐づく回答 |
| Web IQ | Bing による新鮮なWebグラウンディング | 最新情報の取得 |
Web IQ は数字が強烈です。
- P95 レイテンシ 164ms
- クエリあたりのトークン消費が最小
- グラウンディングは「代替手段より2.5倍高速」
# 擬似コード:context に IQ を束ねる
ctx = Context(
grounding=[
WorkIQ(), # 職場セマンティクス
FoundryIQ(kb="product"), # 自前ナレッジベース
WebIQ(), # Bing による最新グラウンディング
],
)
RAG を自前でゼロから組むと、検索・チャンク・鮮度管理で消耗します。IQ はそこを「グラウンディングの標準部品」として提供します。まず IQ で組み、足りない部分だけ自前化するのが2026年の省力解です。
レイヤー④ Adaptive Evaluations — 本番の生命線
エージェントは確率的です。リグレッションは「いつの間にか」起きます。Adaptive Evaluations は、ポリシー(守るべきルール)を自動的な振る舞いテストに変換します。
ポリシー: 「返金は1注文1回まで。二重返金は禁止」
│
▼ Adaptive Evaluations が変換
自動テスト: 同一 order_id への refund_order 2回呼び出し
→ 2回目が denied になることを検証
- skill 単位でテストが書ける(①の設計が効く)
- ポリシー変更がそのままテスト更新になる
- CI に組み込めば、モデル差し替え時のリグレッションを検知
「評価が無いエージェント=本番不可」 と考えてください。モデルを Opus 4.8 に差し替える、GPT-5.5 に切り替える — その判断を支えるのが評価レイヤーです。
モデル選択:Foundry カタログ(11,000+)
Foundry のカタログは11,000以上のモデルを擁します。本番では「1モデル固定」ではなく、用途別に使い分けます。
| 用途 | 推奨 | 理由 |
|---|---|---|
| 高難度の推論・エージェント中核 | Claude Opus 4.8(preview) | 複雑なツール連携・長文脈 |
| バランス型の量産処理 | Claude Sonnet | コストと品質の中庸 |
| 高速・軽量タスク | Claude Haiku | レイテンシ最優先 |
| OpenAI 系で揃えたい | GPT-5.5(GA: 6月3日) | 既存OpenAI資産との互換 |
Claude Opus 4.8 は現時点でpreviewです。本番投入のクリティカルパスに据える場合は、GA状況とSLAを確認のうえ、Adaptive Evaluations でフォールバック先(Sonnet等)も併せて検証しておきましょう。
最小構成のエンドツーエンド
ここまでを1枚に畳むと、本番エージェントの最短経路はこうなります。
# ① フレームワークで skill/memory/context を実装(Python or .NET)
# ② IQ を context にバインド(グラウンディング)
# ③ ポリシーを Adaptive Evaluations に登録(CIで回す)
azd init --template foundry-hosted-agent
azd env set AGENT_IDENTITY my-agent # Entra ID(最小権限)
azd up # Hosted Agents へデプロイ
# → 分離サンドボックス + WebSocket/Voice Live で本番稼働
PoC から本番への距離が、「自前で運用基盤を作る」から「4層を組み合わせる」へ短縮されたのが2026年の本質的な変化です。
まとめ
- 本番エージェント=フレームワーク+ホスト実行環境+IQグラウンディング+評価の4層
- Agent Framework 1.0(GA)が skill/memory/context を第一級に。設計の単位が標準化された
-
Foundry Hosted Agents(6月末GA予定)で、分離・エージェント単位 Entra ID・
azd upデプロイが手に入る - Microsoft IQ でグラウンディングを標準部品化(Web IQ は P95 164ms、2.5倍高速)
- Adaptive Evaluations が無いエージェントは本番不可。ポリシーをテストに変換せよ
- モデルは Foundry の 11,000+ から用途別に選ぶ(Opus 4.8 はpreview、GPT-5.5は6月3日GA)
あなたのチームでは、4層のうちどこが一番のボトルネックになっていますか? コメントで教えてください。
役に立ったら いいね👍と保存📌をお願いします! 後で見返せます。
参考リンク
Microsoft Build 2026: Building agentic apps with Microsoft Fabric and Databases
Microsoft Build 2026 Recap