【保存版】本番AIエージェントの作り方2026 — Microsoft Agent Framework 1.0 と Foundry Hosted Agents 完全攻略

Posted at 2026-06-11

「デモは動く。PoCも作れた。でも本番に乗らない」
2026年、現場のエンジニアが100回は口にしたセリフです。
スキル管理、メモリ、権限分離、評価、グラウンディング — 本番化で詰む理由はいつも「フレームワークの外側」にあります。

Microsoft Build 2026 で、この「外側」をまるごと製品化したスタックが揃いました。本記事は本番エージェントを実際に組んでデプロイするための実践ガイドです。

結論から言うと

2026年の本番エージェントは、4つのレイヤーを組み合わせて作ります。

フレームワーク — Microsoft Agent Framework 1.0（GA）。skill / memory / context を「第一級の概念」として扱う
ホスト実行環境 — Foundry Hosted Agents（6月末までにGA予定）。ハイパーバイザ分離 + エージェント単位の Entra ID
知識グラウンディング — Microsoft IQ（Work / Foundry / Fabric / Web）
評価 — Adaptive Evaluations。ポリシーを自動テストに変換する

「LLM を呼ぶコード」ではなく、この4層を疎結合に積むのが2026年の正解です。

「フレームワークだけ」「モデルだけ」では本番に乗りません。詰むのは毎回、分離・権限・評価・グラウンディングといった"運用レイヤー"です。

アーキテクチャ全体像

┌─────────────────────────────────────────────┐
│            あなたのエージェント               │
├─────────────────────────────────────────────┤
│ ① Framework  : Microsoft Agent Framework 1.0 │
│    └ skill / memory / context（第一級）       │
├─────────────────────────────────────────────┤
│ ② Runtime    : Foundry Hosted Agents          │
│    └ Hypervisor分離 / Entra ID / Voice Live   │
├─────────────────────────────────────────────┤
│ ③ Knowledge  : Microsoft IQ                    │
│    └ Work / Foundry / Fabric / Web IQ          │
├─────────────────────────────────────────────┤
│ ④ Evaluation : Adaptive Evaluations            │
│    └ ポリシー → 自動振る舞いテスト             │
└─────────────────────────────────────────────┘
            ▲
            │ azd up（ソースコードからデプロイ）
            │
   Microsoft Foundry（11,000+ モデル）
   Claude Opus 4.8 (preview) / Sonnet / Haiku
   OpenAI GPT-5.5 (GA: 6月3日)

レイヤー① Microsoft Agent Framework 1.0（GA）

Python と .NET の両方でGAしました。最大の特徴は、skill・context・memory を第一級の概念として設計している点です。これまで各チームが自前で発明していた「記憶」「文脈」「能力」が、フレームワークのプリミティブになりました。

3つのプリミティブ

プリミティブ	役割	本番でなぜ重要か
skill	エージェントが実行できる能力（ツール/関数）	能力の境界＝権限・テストの単位になる
memory	会話・タスクをまたいで永続する記憶	セッション跨ぎの一貫性とパーソナライズ
context	実行時に注入される文脈（ユーザー/業務状態）	グラウンディングと安全性の制御点

skill を定義するイメージ

以下はプリミティブの概念を示す擬似コードです。実際のAPI名はSDKのバージョンに従ってください。設計の「形」を掴むために読んでください。

# 擬似コード：skill / memory / context を第一級で扱う
from agent_framework import Agent, skill, Memory, Context

@skill(name="refund_order", description="注文を返金する")
def refund_order(ctx: Context, order_id: str) -> dict:
    # context から業務状態・権限を参照（第一級）
    if not ctx.policy.allows("refund"):
        return {"status": "denied"}
    return billing.refund(order_id)

agent = Agent(
    model="claude-opus-4-8",      # Foundry カタログから選択
    skills=[refund_order],
    memory=Memory(scope="user"),  # ユーザー単位の永続メモリ
)

ポイントは、skill が「テスト・権限・観測の単位」になること。能力を関数として切り出すから、後段の Adaptive Evaluations でそのまま検証できます。

レイヤー② Foundry Hosted Agents（6月末までにGA予定）

「どこで動かすか」を解決するのがホスト実行環境です。現時点（2026年6月）ではGAは6月末までにロールアウト予定で、本番要件をプラットフォーム側で担保します。

ハイパーバイザ分離のサンドボックス — エージェントごとに強いアイソレーション
エージェント単位の Entra ID — 「人間の権限」ではなく「エージェントの権限」を発行
ソースコードからのデプロイ — azd でリポジトリをそのままデプロイ
Voice Live / WebSocket — 音声・双方向ストリーミング対応

本番エージェントのセキュリティ事故の多くは「権限の使い回し」が原因です。エージェント専用の Entra ID を発行し、最小権限で動かすことを最初の設計に組み込んでください。人間アカウントの権限を借りるのはアンチパターンです。

デプロイの流れ（azd）

# 1. プロジェクトを初期化
azd init --template foundry-hosted-agent

# 2. エージェント専用 Identity を構成（Entra ID）
azd env set AGENT_IDENTITY refund-agent

# 3. ソースコードからそのままホスト環境へデプロイ
azd up

# → ハイパーバイザ分離のサンドボックスで起動
# → WebSocket / Voice Live エンドポイントが払い出される

「Dockerfile を書いて、レジストリに push して、マニフェストを…」という手順が azd up 一発に畳まれます。インフラではなくエージェントに集中できるのが価値です。

レイヤー③ Microsoft IQ — 知識グラウンディング

エージェントがハルシネーションせず、業務の文脈で正しく答えるためのレイヤーです。用途別に4つに分かれています。

IQ	何の知識か	使いどころ
Work IQ	職場のセマンティクス（人・予定・ドキュメント）	社内アシスタント
Foundry IQ	エージェントのナレッジベース	独自RAGの土台
Fabric IQ Ontology	ビジネスのセマンティクス（業務オントロジー）	業務データに紐づく回答
Web IQ	Bing による新鮮なWebグラウンディング	最新情報の取得

Web IQ は数字が強烈です。

P95 レイテンシ 164ms
クエリあたりのトークン消費が最小
グラウンディングは「代替手段より2.5倍高速」

# 擬似コード：context に IQ を束ねる
ctx = Context(
    grounding=[
        WorkIQ(),                 # 職場セマンティクス
        FoundryIQ(kb="product"),  # 自前ナレッジベース
        WebIQ(),                  # Bing による最新グラウンディング
    ],
)

RAG を自前でゼロから組むと、検索・チャンク・鮮度管理で消耗します。IQ はそこを「グラウンディングの標準部品」として提供します。まず IQ で組み、足りない部分だけ自前化するのが2026年の省力解です。

レイヤー④ Adaptive Evaluations — 本番の生命線

エージェントは確率的です。リグレッションは「いつの間にか」起きます。Adaptive Evaluations は、ポリシー（守るべきルール）を自動的な振る舞いテストに変換します。

ポリシー: 「返金は1注文1回まで。二重返金は禁止」
        │
        ▼ Adaptive Evaluations が変換
自動テスト: 同一 order_id への refund_order 2回呼び出し
          → 2回目が denied になることを検証

skill 単位でテストが書ける（①の設計が効く）
ポリシー変更がそのままテスト更新になる
CI に組み込めば、モデル差し替え時のリグレッションを検知

「評価が無いエージェント＝本番不可」 と考えてください。モデルを Opus 4.8 に差し替える、GPT-5.5 に切り替える — その判断を支えるのが評価レイヤーです。

モデル選択：Foundry カタログ（11,000+）

Foundry のカタログは11,000以上のモデルを擁します。本番では「1モデル固定」ではなく、用途別に使い分けます。

用途	推奨	理由
高難度の推論・エージェント中核	Claude Opus 4.8（preview）	複雑なツール連携・長文脈
バランス型の量産処理	Claude Sonnet	コストと品質の中庸
高速・軽量タスク	Claude Haiku	レイテンシ最優先
OpenAI 系で揃えたい	GPT-5.5（GA: 6月3日）	既存OpenAI資産との互換

Claude Opus 4.8 は現時点でpreviewです。本番投入のクリティカルパスに据える場合は、GA状況とSLAを確認のうえ、Adaptive Evaluations でフォールバック先（Sonnet等）も併せて検証しておきましょう。

最小構成のエンドツーエンド

ここまでを1枚に畳むと、本番エージェントの最短経路はこうなります。

# ① フレームワークで skill/memory/context を実装（Python or .NET）
# ② IQ を context にバインド（グラウンディング）
# ③ ポリシーを Adaptive Evaluations に登録（CIで回す）
azd init --template foundry-hosted-agent
azd env set AGENT_IDENTITY my-agent     # Entra ID（最小権限）
azd up                                  # Hosted Agents へデプロイ
# → 分離サンドボックス + WebSocket/Voice Live で本番稼働

PoC から本番への距離が、「自前で運用基盤を作る」から「4層を組み合わせる」へ短縮されたのが2026年の本質的な変化です。

まとめ

本番エージェント＝フレームワーク＋ホスト実行環境＋IQグラウンディング＋評価の4層
Agent Framework 1.0（GA）が skill/memory/context を第一級に。設計の単位が標準化された
Foundry Hosted Agents（6月末GA予定）で、分離・エージェント単位 Entra ID・azd up デプロイが手に入る
Microsoft IQ でグラウンディングを標準部品化（Web IQ は P95 164ms、2.5倍高速）
Adaptive Evaluations が無いエージェントは本番不可。ポリシーをテストに変換せよ
モデルは Foundry の 11,000+ から用途別に選ぶ（Opus 4.8 はpreview、GPT-5.5は6月3日GA）

あなたのチームでは、4層のうちどこが一番のボトルネックになっていますか？コメントで教えてください。

役に立ったら いいね👍と保存📌をお願いします！ 後で見返せます。

参考リンク

Microsoft Build 2026: Building agentic apps with Microsoft Fabric and Databases

Microsoft Build 2026 Recap

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up