Azure AI エンジニア アソシエイト AI-102に合格したので、学習の際に作ったメモを公開します。
※自身が受験したタイミングでのメモのため、その点ご了承ください。
所感
- 本番は、練習問題より全然難易度高いが、繰り返し解いて、そこから辿れる周辺情報は読んでおいた方が良い(出題の傾向自体は、練習問題に近い)
- 受験時点の最新情報で出題されるものも多い(プレビュー機能の仕様を問う問題も出ていた)
- AI Foundryを主軸におき、AIエージェント構築方法や連携するサービスを問う問題が多い
- 少々想像入るが、次のようなイメージがメインの出題意図か?
- 生成AIに取って代わられる分野(言語理解や画像分析の一部など)は、出題頻度が(実務上の利用優先度も)下がる傾向
- 反対に、生成AIの登場により相対的に価値が上がる分野(AI SearchやDocument Intelligence、Speechなど)は、LLMやAIエージェントと組み合わせた出題頻度が上がる傾向
- 生成AI活用における倫理観や適切性等の評価について(Content Safety)は満遍なく出題される
- REST APIやSDKの穴埋め問題が結構多い。
- SDKは、試験開始時に「C# or Python」を選択する。
MS Learnの探し方
考え方
基本的に、原理原則系は暗記するつもりで勉強しておいた方が良い。(時間ない)
検索に頼るのは、細かいパラメータ仕様や関数名など。
キーワードで検索しても所望のページに一発でたどり着けないケースがあったり、また、ページ構成は時期により変化することもある思われるため、項目間の繋がり等の概念的な構成イメージを理解していくことがポイントかと思う。ざっくりと、ページ階層を把握しておき、検索結果の「近いページ」を起点に数回ジャンプして目的のページへたどりつけるようになることが大事かと思われる。
検索のコツ
- 検索クエリの型:「サービス名+目的/用語」
- 例:「Document Intelligence prebuilt invoice」、「Azure AI Search フィールド 属性」
- 日本語は更新が遅れることあるため、見つからなければ日本語→英語へ切り替え(URL の
/ja-jp/
→/en-us/
に書換)。 - 各サービスのドキュメントページへ飛んだら、目的の用語や機能等をつかって「タイトルでフィルター」。
- 迷ったらこの順で当てにいく
- Quickstart(クイックスタート) → Concepts(概念) → How-to → リファレンス
- 実装内容やAPIの型などが問われる設問は、APIリファレンスへ直行。
- よく出る論点は、行き先を覚えておく。(これ以外のサービスでも応用が効くケースもある)
- AI Search 検索インデックスのフィールド属性
- Azure AI Search > 概念 > Data > Search index
- AI Search インデクサーのスケジュール
- Azure AI Search > How-to guides > インデックス作成および情報強化パイプライン > Indexers > インデクサーのスケジュール設定
- Document Intelligenceのドキュメント分析モデル
- Azure Document Intelligence > 事前構築済みのモデル > モデルの概要
- Document Intelligenceへ入力可能なファイル
- Azure Document Intelligence > 概要 > サービスの制限と課金
- Azure Document Intelligence > 事前構築済みのモデル > モデルの概要 >入力の要件
- AI Vision 画像分析の入力データ制限
- Azure AI Vision > 画像分析 > 画像分析の概要 > Service limits
- Speech 入力制限
- Speech Service > 概要 > クオータと制限
- AI Search 検索インデックスのフィールド属性
- 60秒で目的のページにたどり着けない場合は、いったん諦めて設問へ戻る。
APIリファレンスの探し方
- まずは直接的に検索。たどり着けなければ下記のようにREST APIやSDKのルートへ行く。
- 例:「Azure .NET SDK PhraselistCreateObject」
- 例:「azure-search-documents Python reference」
- REST API:「azure rest api」を検索で飛べる
- 言語別のSDK:
- 「azure for developer」と検索する等して、Azure 開発者向けドキュメントへ飛ぶ
- 各言語の「デベロッパーセンター」へ飛ぶ
- SDKリファレンスへ飛ぶ
- .NET:Azure SDK for .NET
- Python:SDK のリファレンス ドキュメント
- JavaScript:Azure SDK for JavaScript
学習メモ
試験時に作成したメモのため、実際の試験に最適化されてません。
※試験後、実際の試験で出題傾向の高かった順に並び替えのみ実施。
責任あるAIの原則
6つの原則
- 公平性(Fairness)
- データの偏りを点検し、代表性のある評価セットで検証
- しきい値調整・再重み付け・再学習で不当な差を緩和する
- 信頼性・安全性(Reliability & Safety)
- レッドチーミングで脆弱性を洗い出し
- プロンプトインジェクションや越権要求への耐性強化
- フェイルセーフ(無応答/要エスカレーション)
- レート制限
- 段階的デリバリー計画(ソリューションを広範囲にリリースする前に、フィードバックを収集して問題を特定)
- プライバシー・セキュリティ(Privacy & Security)
- データ最小化
- PIIマスキング/匿名化
- キー管理(Key Vault)
- アクセス制御(RBAC/マネージドID)
- ネットワーク分離(Private Link/VNet)
- ログの保持・削除方針を定義
- 包摂性(Inclusiveness)
- アクセシビリティ準拠(例:読み上げ/字幕/コントラスト)
- 多言語対応
- ユニバーサルデザイン
- 特定集団に不利益が出ないUI/文面
- 透明性(Transparency)
- モデルの目的・限界・学習/推論の前提を開示
- 例:RAGは出典リンクを提示し、生成物と根拠を分けて表示
- 説明責任(Accountability)
- Human-in-the-Loop(人手審査)やエスカレーション経路
- 監査ログ
- 変更管理(MLOps)を運用
- 運用SLAと緊急停止基準を定義
Azure AI Foundry
概要
- Foundry プロジェクト/ハブでリソース・接続・アクセス制御を統合管理。Playground で試し、デプロイ → エンドポイント → API/SDK 統合まで一気通貫。Microsoft Learn+1
- ハブ/プロジェクト(リソース管理)
- ハブ=データアクセスやセキュリティ設定を共有する土台、プロジェクト=開発単位(API もここから)。テンプレート/ポータル/ARM/Bicep で作成可。Managed network によるネットワーク分離も設定可能。(Microsoft Learn)
- 接続(Connections)
- プロジェクトにAI Search/Storage/AOAI 等を接続して再利用。プロジェクト専用の接続をポータルから追加可能。(Microsoft Learn)
- モデルカタログ(Foundry Models)
- Azure OpenAI, Meta, Mistral, Cohere, NVIDIA, Hugging Face など多数プロバイダのモデルを発見→利用。Serverless API/Managed Compute など複数のデプロイオプションを提供。単一エンドポイント/資格情報でモデルの切替が可能。(Microsoft Learn)
- プレイグラウンド & テンプレート
- Chat プレイグラウンドでノーコード検証、Use your dataの簡易 RAG テストが可能。テンプレートからサンプルアプリを開き、ローカル/Cloud へ展開できる。(Microsoft Learn)
- SDK / 開発者体験
- Projects クライアント(Python/JS/Java/C#)でプロジェクト エンドポイントに統一接続し、モデル呼び出し・資産管理・評価などをコードから実行。クイックスタート/多言語ガイドあり。(Microsoft Learn)
- Prompt flow(開発〜評価〜配備)
- DAG/フレックスで LLM・プロンプト・ツールをオーケストレーション、バッチ評価や指標比較を提供。作成したフローはManaged Online Endpointにリアルタイム推論として配備。(Microsoft Learn)
- 観測性・トレーシング
- Observability ダッシュボード、OpenTelemetry + Application Insights でプロンプト/ツールコール/レイテンシ等を可視化。エージェント トレーシングの手順も用意。(Microsoft Learn)
- エージェント(Agent Service)
- エージェントの設計:エージェントの設計・実行をマネージド実行基盤で提供。スレッド/ツール呼び出し/安全性の強制/ID・ネットワーク・監視統合。ビルトインツール(Bing/AI Search/Logic Apps 等)も利用可。ノーコードのクイックスタートあり。(Microsoft Learn)
- Foundry Agent Serviceの主な機能
- 自動ツール呼び出し:エージェントの構成ファイルで利用するツールを宣言し、実行時に特定のアクションを呼び出せる。自作ツール(function calling)の処理本体は Python/JavaScript 等で実装(Functions、やLogic Apps)、SDK から登録する。※ Bing 検索や OpenAPI で定義したツールなどは、構成ファイル側の宣言だけで使える場合もある。
- 安全に管理されたデータ:会話の状態はスレッドを使用して安全に管理される
- すぐに使用できるツール:ファイル取得、コード解釈、Bing、Azure AI Search、Microsoft Fabric、Azure Functions、OpenAI仕様ツール
- エンタープライズレベルのセキュリティ
- カスタマイズ可能なストレージソリューション
- 接続されたエージェントシステム(Supervisor方の実装のこと)
- メインエージェントのツール定義(ConnectedAgentTool)としてサブエージェントを追加
- メインエージェントは、自身に定義したinstructions(自然言語の指示)に基づき、どのサブエージェントを呼び出すか決める
- セマンティックカーネルの使用:セマンティック カーネルは、AI エージェントを簡単に構築し、最新の AI モデルを C#、Python、または Java コードベースに統合できる、軽量のオープンソース開発キット。
- デプロイ & エンドポイント
- Foundry Modelsは用途に応じてServerless APIまたはManaged Computeへデプロイ。エンドポイント/デプロイの概念やモデル組織化の仕組みを提供。エンドポイントのマネージド IDで接続先権限を付与。(Microsoft Learn)
- 評価
- モデルベンチマーク:各モデルの精度、一貫性、流暢性などを確認が可能
- 自然言語処理メトリック:BLEU、METEOR、ROUGEなど
Azure OpenAI Service
- 概要
- GPT 系(o4/o3/4o/3.5 等)の推論、RAG(On Your Data / カスタム実装)、関数呼び出し、構造化出力、埋め込みを Azure の RBAC/ネットワーク分離の枠で提供(REST/SDK)。(Microsoft Learn)
- *コンテンツフィルタ(Azure AI Content Safety)**および Prompt Shields と連携可能。(Microsoft Learn)
- モデルバージョン
- モデル退役(提供終了)時に「既定バージョンへ自動アップグレード」される設定がある(既定への自動更新を有効にしているデプロイが対象)。プレビュー版は標準ライフサイクル外で自動更新されるので本番利用は非推奨。(Microsoft Learn)
- プロンプトエンジニアリング
- AI Foundry > Azure OpenAI > モデル > Concepts > プロンプトエンジニアリングの手法(基本原則:具体的・記述的・重要指示は繰り返し)。 (Microsoft Learn)
- ベストプラクティス
- 具体的にする
- わかりやすくする:例示など
- 繰り返す:繰り返し対話(重要事項の二重化など)(Microsoft Learn)
- 順序が重要:モデルに情報を提示する順序が出力に影響することを意識
- モデルに「逃げ道」を用意:回答が存在しない場合の応答指針など
- RAG(Retrieval-Augmented Generation)
- 選択肢
- On Your Data:AI Search/ストレージ等を接続し、最新データに基づく引用(出典)つき回答を REST/SDK/ポータルで提供。(Microsoft Learn)
- 自前実装:埋め込み+(ハイブリッド)ベクター検索(例:Azure AI Search)→プロンプトへ根拠挿入。(Microsoft Learn)
- パフォーマンス改善
- 厳密性:類似スコアに基づき検索ドキュメントをフィルタ
- 取得されるドキュメント:回答に使用するドキュメント数を選択
- データの応答を制限する:モデルの自前知識ではなくドキュメントのみ参照させる(指示を明示)。(Microsoft Learn)
- 選択肢
- 関数呼び出し(Tool/Function Calling)と構造化出力
- 関数呼び出し:モデルが
tool_calls
を提案→アプリ側で関数実行→結果を再投入して最終応答。公式ハウツーに最小例あり。(Microsoft Learn) - 構造化出力:
response_format={"type":"json_schema", ...}
で JSON Schema 準拠の出力を強制({"type":"json_object"}
は JSON モード)。(Microsoft Learn, OpenAI Platform)
- 関数呼び出し:モデルが
- 埋め込み(Embeddings)
- テキストからベクトルを算出(RAG/クラスタリング等に利用)。モデル例:
text-embedding-3-large
/text-embedding-3-small
。次元数の目安:small=1536, large=3072。(OpenAI Platform)
- テキストからベクトルを算出(RAG/クラスタリング等に利用)。モデル例:
- OpenAI Assistants API
- コードインタープリターやカスタム関数など高度なツールを利用
- API ライフサイクル
- v1 API へ段階移行(2025〜)。更新追従を簡素化する新しい API サーフェス/SDK への移行ガイドあり。Microsoft Learn+1
- 画像生成・マルチモーダル
- 画像生成(gpt-image-1 / DALL·E):REST/SDK で生成・オプション指定・出力形式の選択。クイックスタートあり。Microsoft Learn+1
- Vision(GPT-4o 系など):Vision 対応チャットモデルを Chat Completions で呼び出し(画像 URL/BASE64 入力)。
- 画像の品質と解像度を指定
- APIオプションで、
"size": "1024x1024"
,"quality": "hd"を指定。
- APIオプションで、
- 微調整(Fine-tuning)
- データ準備 → ジョブ作成 → デプロイ。デプロイ中はホスティング課金が発生(運用時は未使用でも)。Microsoft Learn
- 監視・コスト最適化
- メトリクス ダッシュボード(HTTP Requests / Tokens-Based Usage / PTU / Fine-tuning)と診断設定→Log Analytics。Microsoft Learn
- クォータ管理・スループット
- TPM/RPM は「地域×サブスク×モデル(またはデプロイ種別)」で定義。TPM をデプロイへ割当、比率はモデル依存。Microsoft Learn+1
- トークンとパフォーマンスの要点
-
コンテキスト長超過時は入力+生成の合計が上限を超えるとメッセージが切り捨てられうる→重要な
system
指示は短く先頭、履歴は要約で圧縮。(Microsoft Learn) - 予算化:
max_tokens
、ストリーミング、ツール/画像併用でのトークン増を見込む - モニタリング:ポータルのメトリクス(HTTP Requests / Tokens-Based Usage / PTU Utilization / Fine-tuning)でデプロイ単位の使用量を可視化。(Microsoft Learn)
-
コンテキスト長超過時は入力+生成の合計が上限を超えるとメッセージが切り捨てられうる→重要な
- スループット設計
- 割り当て方式:サブスクリプションのモデル別クォータ(TPM)を各デプロイに割り当て(残量は同モデルの別デプロイに回せる)。実効の TPM/RPM はモデル依存。(Microsoft Learn)
-
モデル例:
gpt-4o audio
のデプロイは 100,000 TPM / 1,000 RPM(プレビュー)。固定比率ではなくモデルごとの上限に従う。(Microsoft Learn) - 見積もり:必要TPM ≒(平均 入力Tok+平均 出力Tok)×(想定RPS)×60。スロットリング時はバックオフ/再試行、バッチ化、複数デプロイで負荷分散。
- 認証・接続・セキュリティ
- 認証:API キー または Microsoft Entra ID(Managed Identity+RBAC)。後者はキーレス運用が可能。(Microsoft Learn)
- ネットワーク:Private Endpoint+VNet+Private DNS で公開アクセス遮断し、社内/指定サブネットのみ許可。On Your Data も Entra RBAC と VNet で構成可。(Microsoft Learn)
- データ取り扱い:顧客データは学習に利用されない。保持・監査の扱いは公式の「Data, privacy, and security」を参照。ログ/テレメトリの機微情報は最小化・マスキング設計。(Microsoft Learn)
Azure AI Content Safety
- 概要
- テキスト/画像の有害コンテンツ検知と**プロンプト防御(Prompt Shields)**を提供するガードレールサービス
- カテゴリ別しきい値やカスタムカテゴリで運用に合わせて調整可能
- 主な機能
- テキスト/画像の判定(ヘイト・性的・暴力・自傷などのカテゴリー分類とスコア)
- しきい値に応じたアクション(ブロック/要レビュー/トーンダウン等)
- カスタムカテゴリ(自社NGワード・事例から独自判定器を作成)
- Prompt Shields(プロンプトインジェクション・越権要求など攻撃的入力の検知)
- Content Safety Studio と REST/SDK(しきい値実験、ログ確認、導入テスト)
- メトリクス/ログによるチューニングと継続評価
- 呼び出し方
- 「エンドポイント+キー」を使って REST か SDK で叩く(例:
POST {endpoint}/contentsafety/text:analyze?api-version=2024-09-01
)
- 「エンドポイント+キー」を使って REST か SDK で叩く(例:
- 調整方法
-
カテゴリの明示指定:
categories
に["Hate","Sexual","Violence","SelfHarm"]
のように渡す(未指定なら全カテゴリ) -
スコア粒度:
outputType
をFourSeverityLevels
(0/2/4/6)またはEightSeverityLevels
(0–7)に設定し、運用側でしきい値をマッピング -
ブロックリスト併用:
blocklistNames
を指定し、必要に応じてhaltOnBlocklistHit=true
-
カスタムカテゴリ(Standard):
- カテゴリ名・定義・学習データ(JSONL)を登録 →
- ビルド(学習) →
-
text:analyzeCustomCategory
でcategoryName
とversion
を指定して推論
- カスタムカテゴリ(Rapid):少数例から即時検出を始める簡易型(地域や提供状況に依存)
-
Prompt Shields の前段防御:LLMに渡す前に
text:shieldPrompt
を呼び、Jailbreak/間接攻撃の疑いを除去 - スタジオでのしきい値調整→本番反映:Studio でケース収集→しきい値決定→本番コードの条件(ブロック/要審査)を更新→メトリクスで追跡
-
カテゴリの明示指定:
Azure AI Search
- 概要
- フルマネージドの検索基盤。
- キーワード/ベクター/ハイブリッドを提供し、アプリ検索や RAG の土台になる
- 基本構成
- データソース → インデクサー →(任意で)スキルセット(AIエンリッチメント)→ インデックス/ナレッジストア → クエリ(検索/ファセット/フィルター/ベクター)
- 対象ファイル
-
.txt
、.html
、.pdf
、Microsoft Word(.docx)/ PowerPoint(.pptx) -
.json
(JSONパス指定で抽出可) -
.md
はプレーンテキストとして取り込み可能な場合あり(運用前に要テスト)
-
- ベクター検索 / ハイブリッド検索
- ベクターフィールド(コレクション)を定義し、埋め込みベクトルを格納
- kNN(HNSW)で近傍検索。BM25(キーワード)とのハイブリッドで精度安定
- RAG では「ベクター + キーワード + フィルター(メタデータ)」の併用が定番
- Wikipediaリンクを作成
-
Microsoft.Skills.Text.V3.EntityLinkingSkill
(同名のエンティティを Wikipedia 等に正規化)
-
- フィールドの属性
-
key
:主キー -
searchable
:全文検索対象 -
retrievable
:検索結果に含める可否 -
filterable
:$filter=
で絞り込み(Where句) -
facetable
:グループ集計(ファセット=Group By + Count) -
sortable
:$orderby=
で並び替え - (必要に応じて)言語アナライザー、同義語マップ、ハイライト対象
-
- クエリの要点
-
search
(全文)/$filter
(条件)/facet
(件数集計)/$orderby
(並び替え)/$select
(列指定)/$top,$count
- 配列のフィルター:
tags/any(t: t eq 'X')
- 日付・数値のファセット帯:
facet=publishedDate,interval:month
/facet=price,interval:50000
-
- AIエンリッチメント(スキルセット)
- 非構造データから情報抽出(OCR、レイアウト解析、言語分析、キー句、エンティティ、翻訳 など)
- 組み込みスキル+カスタムスキル(WebApiSkill)を組み合わせて前処理/抽出を実装
- 例:
DocumentExtraction → SplitSkill → OCR/Text → Language Skills →(Custom)→ OutputField
- 例:
- カスタムスキル(概略)
- 組み込みで足りない処理や外部AI推論を自前のHTTPエンドポイントとして用意し、スキルセットに組み込む仕組み
- 入力の粒度(ファイル全体/ページ・チャンク)を選び、必要項目だけ渡す
- 返した値をインデックスのフィールドへ対応付けて保存
- WebApiSkill(カスタムスキルを取り込むための定義)
- 自前エンドポイントを呼ぶための公式スキル定義(アダプタ)
- 主要要素:エンドポイントURL・HTTPメソッド・入出力名の対応・処理粒度(context)
- 実装例:テキスト分類(AI Language 連携)
- Azure AI Language でカスタム分類モデルを公開
- Functions 等でラッパーAPIを用意(本文→ラベル/スコアを返す)
- そのAPIを WebApiSkill としてスキルセットに登録し、返却値をインデックス列へ保存
- ナレッジストア(Knowledge Store)
- エンリッチメント結果を Azure Storage に永続化
- 格納方式(プロジェクション):テーブル/オブジェクト(JSON)/ファイル
- 検索以外(BI/分析/監査)でも再利用可能
- 更新・取り込み設計
- インデクサーのスケジュールは最短 5 分程度(秒レベルは不可)
- 低レイテンシ要件は Index Documents API(プッシュ) か イベント駆動で Run Indexer
- 差分取り込み:変更検出(HighWaterMark/Change tracking/Soft delete)を設定
- コストの計算イメージ
- SU数 = パーティション数 × レプリカ数
- 総コスト ≒ SU単価 × SU数(SKUに依存)+ AIエンリッチメント実行コスト(Cognitive Services 課金)
- 画像抽出/OCR/言語分析などは AI側のメーターで別課金
- SKU/スケール指針
- インデックスサイズとクエリ遅延を定点観測
- 容量が閾値に近づいたら パーティション増、読み込み/可用性は レプリカ増
- 余裕が必要なら 上位SKU(メモリ/スループット増)も検討
- 運用のポイント
- インデックス設計時に
filterable/facetable/sortable/retrievable
を必要な列にのみ付与(コスト/パフォーマンス最適化) - 同義語マップ/アナライザーの選定、
$select
で返却列を絞って帯域削減 - Application Insights とメトリクスでインデクサー/クエリの監視(429/503 発生時はレート調整やレプリカ増)
- 検索クエリが増加しスロットリングが発生する場合、料金プランのアップか、レプリカの追加を検討する。
- インデックス設計時に
Azure Document Intelligence
Azure AI Document Intelligence
- 概要
- スキャン/PDF/画像からテキスト・表・キー/値などを抽出し、構造化データ化するサービス
- 主要機能機能
- 事前構築モデル(請求書・領収書・ID・税・銀行明細・給与明細・契約など)
- Read・Layout(OCR+構造)
- 検索可能PDF生成
- カスタム生成抽出分類合成(Composed)
- テンプレート(固定様式)
- ニューラル(多様様式)
- 事前構築済みモデル
- 請求書モデル:請求書から一般的なフィールドとその値を抽出
- 領収書モデル:領収書から一般的なフィールドとその値を抽出
- 米国税モデル:W-2、1098、1099、1040 などのフォームから抽出できる統一モデル
- ID ドキュメント モデル:米国の運転免許証、EU の ID/運転免許証、国際パスポートから共通フィールドを抽出
- 名刺モデル:名刺から一般的なフィールドを抽出(将来的な提供形態の変更に注意)
- 医療保険カード モデル:医療保険カードから共通フィールドを抽出
- 結婚証明書:結婚証明書から情報を抽出
- クレジット/デビット カード モデル:銀行カードから共通情報を抽出
- 住宅ローンのドキュメント:1003/1004/Closing Disclosure などから抽出
- 口座取引明細書モデル:開始/終了残高、取引明細などを抽出
- 給与明細書モデル:賃金、時間、控除、手取り額などを抽出
- 小切手モデル:支払い先、金額、日付、MICR 等を抽出
- 一般的なドキュメント分析モデル
-
読み取り(prebuild-read)モデル
印刷・手書きのテキストを認識。単語/行の抽出と言語検出。必要に応じて高精細なOCR設定を利用。 -
レイアウト(prebuild-layout)モデル
テキスト+構造(段落、表、チェックボックス、見出しなど)を抽出。- 追加機能(features)の代表例:
keyValuePairs(キー/値抽出)
languages(言語情報)
barcodes
(一次元バーコードおよび QRコード の検出・デコード)
formulas(数式)
styleFont(スタイル/フォント)
ocrHighResolution(高解像度OCR)
queryFields(指定フィールドの直接抽出
searchablePDF(検索可能PDF生成)。
- 追加機能(features)の代表例:
-
一般ドキュメント(prebuild-document)
v4 では非推奨。キーと値・テーブル抽出は Layout + features で実現
-
読み取り(prebuild-read)モデル
- カスタムモデル
-
カスタム テンプレート モデル
- レイアウトが一貫するフォーム向け(少量データで開始しやすい)
-
カスタム ニューラル モデル
- 半構造・非構造で様式が揺れるケース向け(多様性に強い)
-
カスタム 生成抽出(Generative)
- 先に抽出スキーマを定義し、生成モデルで多様な様式から抽出(対応リージョン/条件に留意)
-
カスタム 分類
- 書類の種類を判定してから最適な抽出モデルへ振り分け
-
合成(Composed)モデル
- 複数のカスタムモデルを束ね、入力に応じて自動選択
-
カスタム テンプレート モデル
- 入力と課金の基本
- 入力形式:PDF/TIFF/画像、Office など(ページ単位・言語対応は機能ごとに異なる)
- 課金は主にページ課金(処理対象ページは
pages
パラメータで制御可能) - 大容量や長文は上限に注意(最新ドキュメントで確認)
- 出力と設計の勘所
- 出力に bounding box / polygon を含む(UIのハイライトや位置合わせに活用)
- PDF/画像で座標単位が異なる点に注意(可視化・後工程に影響)
- 表(テーブル)・キー/値・選択マークの抽出は、後続の正規化・バリデーション設計とセットで考える
- 開発・運用
- Document Intelligence Studio で試行・可視化、サンプルのラベリング/検証
- Azure AI Search と連携する場合は取り込み設計(メタデータ、分割、差分更新)も合わせて設計
- スループットやレート制限を考慮した再試行(
retry-after
)とバッチ化 - 言語・リージョン・機能対応は事前確認(機能ごとに差異あり)
- コンテナ配布あり(通常はメータリング通信、完全オフラインは別契約前提)
- 機能の使い分けの指針
- 固定様式=テンプレート
- 様式が揺れる=ニューラル
- 広くスキーマ先行で抽出=生成抽出
- 種別が混在=分類 → 抽出
- 既製対象なら事前構築済みを優先し、不足分のみカスタム
了解。大事な点だけ追加して、貼り替えやすい最小構成にしました(※要点のみ/出典リンクなし)。
Azure AI Content Understanding
Azure AI Content Understanding
- 概要
- 生成AIベースで、あらゆる種類(ドキュメント/画像/ビデオ/オーディオ)のコンテンツを処理し、ユーザー定義スキーマに沿った構造化出力を生成。
- 主要な機能
- アナライザー(Analyzer):抽出対象フィールドや出力スキーマを定義し、一貫した処理を実行。
- 抽出方式の3パターン:①抽出(既存値の取り出し) ②分類(カテゴリ付与) ③生成(要約・説明など)。
- レイアウト/構造の取得:段落・セクション・表・選択マーク(チェックボックス等)・バーコード・数式・図表・画像要素。
- グラウンディング&信頼度:各フィールドに**根拠箇所(出典位置)と信頼度(0–1)**を付与し、人手レビュー判定や自動化の閾値に利用。
- プリビルト+カスタム:ドキュメント/画像/音声/動画向けのプリビルト アナライザーを起点に、必要なフィールドを追加・調整可能。
- RAGや検索への取り込み:構造化出力をインデックス化しやすい形式で返すため、Azure AI Search 連携やナレッジ基盤に組み込みやすい。
- 使い方(高レベル)
- ポータル(Azure AI Foundry)でアナライザー作成→テスト→実行、またはREST/SDKでバッチ/オンライン処理。
- 出力はスキーマ準拠のJSON(strongly-typed)で、下流のアプリ・RPA・データ基盤にそのまま接続可能。
- 代表的な出力例
- ドキュメント:宛先・金額・期日・条項/義務・表の行列抽出。
- 画像:テキスト/表/図の抽出、対象領域の説明生成。
- 音声:文字起こし、話者分離(ダイアリゼーション)、要約・感情・キートピック抽出。
- 動画:ショット/シーン分割、キーフレーム、説明要約、標準メタデータ+カスタム項目の生成。
- 運用メモ
- プレビュー提供のため、仕様変更の可能性あり。
- 信頼度しきい値と人手レビューのルールを先に決め、ワークフローへ組み込む。
- 顔関連等のセンシティブ機能は制限付きアクセス(利用には申請が必要な場合あり)。
Azure AI Speech
- 概要
- 音声→テキスト(STT)、テキスト→音声(TTS)、音声翻訳、話者関連機能を提供。 (Microsoft Learn)
- リアルタイム/バッチ処理、Bot 連携、コンテナ展開に対応。
- 主要機能
- 音声→テキスト(STT:リアルタイム/バッチ)
- テキスト→音声(TTS:標準/ニューラル、SSML制御)
- 音声翻訳(Speech Translation:音声→翻訳テキスト/合成音声)
- 話者認識(Speaker Recognition:Verify 1:1/Identify 1:N。廃止予定 ) (Microsoft Learn)
- 音声→テキスト(STT)
- 言語自動判別(候補言語から自動推定。運用は候補指定が基本) 。 (Microsoft Learn)
- 出力整形:句読点・大文字化、ITN(数表現の正規化)、伏字(Profanity)
- タイムスタンプ・語単位境界の取得、字幕ファイル(SRT/WebVTT)出力
- 発音評価(Pronunciation Assessment)で発話を評価 。 (Microsoft Learn)
- カスタム(Custom Speech):語彙ブーストや言語/音響モデル適応で精度を改善。 [Custom Speech 概要] 。 (Microsoft Learn)
- テキスト→音声(TTS)
- 標準音声(ニューラル音声) (Microsoft Learn)
- SSML:
<phoneme>
,<prosody>
,<break>
,mstts:express-as
で発音・抑揚・ポーズ・話し方を制御。 [SSML リファレンス] 。 (Microsoft Learn) - WordBoundary/Viseme イベントで字幕同期・リップシンク。 [Viseme 使い方] 。 (Microsoft Learn)
- カスタム(Custom Neural Voice):自社ボイス合成の学習(利用には申請・同意が必要)。 [Custom Neural Voice 概要] 。 (Microsoft Learn)
- 音声翻訳(Speech Translation)
- 処理経路:STT→機械翻訳→(任意で)TTS。 [音声翻訳クイックスタート] 。 (Microsoft Learn)
- 出力:翻訳テキスト/翻訳音声(レイテンシは構成に依存)
- 話者関連(Speaker / Diarization)
- 話者認証(Verification:1:1、テキスト依存/非依存)
- 話者特定(Identification:1:N、登録者集合から識別)
- 話者分離(Diarization):会話中の「誰が・いつ」を区別(認証/特定とは別機能)
- 入出力・フォーマット
- 入力:WAV(PCM), Ogg Opus など(サンプルレート/チャンネル/ビット深度に注意)
- 出力:PCM/MP3/OGG(複数サンプルレートを選択可)
- バッチ:字幕ファイル(SRT/WebVTT)生成
- 統合・運用
- Bot 連携:Direct Line 系チャネル(Direct Line/Direct Line Speech)。構成は Bot Service のチャネル仕様に準拠。 (Microsoft Learn)
- コンテナ展開:課金/ライセンスと接続要件に従う(切断運用は別条件・申請制)。 (Microsoft Learn)
- セキュリティ:キー管理(Key Vault)、ネットワーク制御、ログの PII マスキング
- 参考:音声エージェント統合の新経路(音声ライブ API) 。 (Microsoft Learn)
Azure AI Translator
-
概要
- テキストと文書を多言語に翻訳するマネージドサービス。REST/SDK とポータル(Language Studio)で利用。
-
主要機能
-
テキスト翻訳
-
from
指定または自動言語判定→複数to
言語へ一括翻訳(HTML/プレーン)。
-
-
音訳(Transliteration)
- スクリプト変換(例:キリル⇄ラテン、かな⇄ローマ字)。
-
辞書(Dictionary)
- 語義や代替訳の候補・用例を取得。
-
文書翻訳(Document Translation)
- Office/PDF/HTML などをレイアウト維持で一括翻訳(Blob の入出力、非同期ジョブ)。
- 文章分割(Break Sentence)
- 不適切表現(Profanity)制御
- 対訳アラインメント(訳文↔原文位置対応)
-
カスタム:
-
Custom Translator
- 自社コーパスでドメイン適応モデルを学習・デプロイ(API で
category
を指定して利用)。
- 自社コーパスでドメイン適応モデルを学習・デプロイ(API で
-
用語集(Glossary)
- 文書翻訳で TBX/CSV などの用語固定を適用(「A社」を常に “Contoso” など)。
-
Custom Translator
-
テキスト翻訳
-
カスタム翻訳ツール
- トレーニングに使用する素材
- バイリンガルトレーニングドキュメント
- テストドキュメント
- 辞書
- など
- 従うべきルール
- 寛容に= 量を取りつつ品質基準は守り、メトリクスで取捨選択
- 厳密に= 用途を限定・分割厳守・固定評価
- 限定的に= 辞書介入は最小限、ルール(句=大小区別/文=全文一致)を厳守
- 評価
- BLEU スコアが 40 から 60 の範囲であれば高品質な翻訳
- トレーニングに使用する素材
-
使い方の要点
-
テキスト翻訳最小例(HTTP)
POST {endpoint}/translate?api-version=3.0&from=auto&to=ja&to=en
に[{ "Text": "Hello" }]
を送る。 -
文書翻訳の流れ
① ソース/ターゲットコンテナとSASを用意 → ② ジョブ作成(入出力と用語集を指定) → ③ 状態ポーリング → ④ 出力コンテナから取得。
-
セキュリティ/運用
Key/Entra ID 認証、Private Endpoint、キーの Key Vault 管理。大量翻訳はジョブ分割と再試行(ステータス監視)で。
-
-
Translatorを使わなくても、自身に翻訳機能が備わっている他サービス
-
Azure AI Speech(Speech Translation)
音声→テキスト翻訳/音声→音声翻訳をリアルタイムに実行(SDK/REST)。会議字幕や通訳UI向け。
-
Azure AI Video Indexer
音声を書き起こした後、字幕を多言語へ翻訳して SRT/WebVTT で出力。長尺コンテンツの一括処理に最適。
-
Azure AI Immersive Reader
表示中の本文をUI内でそのまま翻訳(単語/全文)。教育・読解支援アプリ向け。
参考(“組み込み連携”での翻訳)
- Azure AI Search の TextTranslationSkill:インデクサーのスキルセットとして翻訳可能(※内部的には Translator を利用)。
- Azure OpenAI:プロンプトで翻訳は可能だが、用語固定・一貫性・大量運用は Translator/Document Translation のほうが適切。
-
Azure AI Language
- 概要
- NLP(テキスト分析/理解/要約/QA など)の一式を提供
- Language Studio、REST API、SDK で利用。(Microsoft Learn)
- 主要機能
- 言語検出
- 入力テキストの言語を判定(BCP-47 準拠の言語タグで返す)
- キー フレーズ抽出:主要語句を抽出
- 名詞フレーズ、形容詞+名詞などが抽出されやすい
- 感情分析
- 肯定/中立/否定の推定と信頼度スコアを返す
- 文章全体だけでなく、文や単語単位で感情をスコアリングできる
- 名前付きエンティティ認識(NER)
- 人名/組織/場所/日時/住所/Email/URL などを検出
- PII 検出
- 個人情報(電話/住所/クレジットカード番号など)を検出・マスキング
- 要約(サマリ)
- 長文から抽出/抽象要約を生成
- エンティティ リンク
- 検出したエンティティを Wikipedia 等への紐づけ(曖昧性解消)
- ヘルスケア(医療)テキスト
- 医療用 NER/エンティティリンク/関係抽出/アサーション検出
- 言語検出
- カスタム機能
- 会話言語理解(CLU)
- 発話の「意図(インテント)」と「エンティティ」を学習して推定
- プロジェクトのエクスポート/インポートは JSON(.lu は LUIS 側の形式)。(Microsoft Learn)
- Noneインテント(フォールバック)
- 既知の意図に十分な確信がない発話を受け止める“その他”用インテント
- 必ず作成し、代表的な“範囲外”例文を数十件入れる
- しきい値で分岐(Clarify 質問/QA にフォールバック/人手対応)し、ログから新インテントの候補を継続抽出
- トレーニングモード
- 標準 or 高度
- 高度であれば、多言語が利用可だが、価格が高くなる
- パフォーマンス改善
- パフォーマンスが低い言語の発話を追加することで最適化
- カスタム NER
- 業務固有のエンティティ抽出を学習
- 主な上限:(Microsoft Learn)
- ドキュメント 10–100,000
- エンティティ種別 最大200
- エンティティ長 最大500文字 ほか。
- カスタム テキスト分類
- マルチクラス/マルチラベル分類の学習。
- カスタム 質問応答
- FAQ/手順書/製品ドキュメント/Web(URL)やファイル(PDF/HTML/DOCX など)から Q&A ペアを自動抽出してナレッジベース化(手動での追記・編集も可)
- 見出し・段落・表・箇条書き・リンクなどの文書構造(HTML タグや章立て)を手がかりにセクションを識別し、質問と回答を抽出
- 会話言語理解(CLU)
- Orchestration workflow
- 1つのエンドポイントで受けた発話を、子プロジェクト(CLU/Custom Question Answering/LUIS)のどれに回すべきかを判定し振り分ける。
- 同じリソース内にあるプロジェクトへ接続が可能
- Question Answering と CLU の使い分け
- Question Answering:質問→既知の回答(ナレッジ検索)。FAQ/ガイド/規程の提示に向く。性的な情報の質疑がある場合。
- CLU:発話→意図/エンティティ→アクション実行(予約/問い合わせ起票など)。
- 併用:CLU で意図を判定→該当時のみ QA にフォールバック、などの構成が定番。
- CLU が None のときは QA へフォールバック、QAでも該当なしなら聞き返し or 人手へ。
- データ制限・エクスポート
- 事前構築(prebuilt)系のサイズ/レート制限は機能ごとに上限あり。(Microsoft Learn)
- カスタム NER の制限(学習/デプロイ上限など)は別管理。(Microsoft Learn)
- カスタムテキスト分類は、複数リージョンへのデプロイが可能。
- カスタム質問応答は、データのエクスポート→インポートにより、リージョン間で移動可能。
- 移行と廃止情報
- QnA Maker:2025-10-31 廃止(ポータルは 2025-03-31 から利用不可)。後継は Language の Question Answering。(Microsoft Learn)
- LUIS:2026-03-31 完全廃止。ポータルは 2025-10-31 で終了。移行先は CLU。(Microsoft Learn, TECHCOMMUNITY.MICROSOFT.COM)
Azure AI Video Indexer
- 概要
- ビデオ/オーディオから文字起こし・翻訳・顔/人物・ブランド/ロゴ・シーン/ショットなどのメタデータを自動抽出し、検索・可視化・エクスポートできるサービス
- 目的:アーカイブ検索、字幕生成、ハイライト抽出、コンプライアンス確認、分析レポート作成
- アップロード・取り込み
- ファイルアップロード:ポータル/API で直接アップロード
- URL 取り込み:SAS 付き Blob、公開 URL、OneDrive/SharePoint の共有リンクなど
- バッチ処理が基本(長尺コンテンツ想定)
- 主な機能(抽出されるインサイト)Microsoft Learn
- 音声:文字起こし(多言語)、翻訳、話者分離(誰がいつ話したか)、キーワード/トピック、感情傾向
- 映像:顔検出・既知人物の特定(条件あり)、人物トラック、感情、ブランド/ロゴ、シーン/ショット/キーフレーム、アクティビティ、オンスクリーンテキスト(OCR)
- メタ:タイムライン付きインサイト JSON、サムネイル/キーフレーム画像
- ウィジェット(UI部品)
-
Insights ウィジェット:字幕・トランスクリプト、人物、感情分析、キーワード、話題、シーンなどの“分析情報”を一覧表示。
widgets=
パラメータで見せる要素の絞り込みも可 - Player ウィジェット:キャプション内蔵のビデオプレーヤー。
captions=
、autoplay=
、人物や物体の境界ボックス表示(boundingBoxes=
)などを制御可。 - Editor ウィジェット:プロジェクト作成やインサイト編集用。埋め込みには accessToken 必須。
-
Insights ウィジェット:字幕・トランスクリプト、人物、感情分析、キーワード、話題、シーンなどの“分析情報”を一覧表示。
- カスタム(学習・調整)
- カスタム語彙:特有の用語・固有名詞を txt で登録し、認識精度を補強
- カスタム人物(Face/Person):自社人物の顔を登録して同定精度を向上
- カスタムブランド:自社ロゴ等の検出モデルを作成
- 注意:VI 内で作成したカスタムモデルは VI パイプライン専用(Speech や Vision 等の外部 API へエクスポート不可)
- 出力・エクスポート
- トランスクリプト:SRT / WebVTT / TXT などでダウンロード
- インサイト:Insights JSON(タイムコード付き)を取得して BI/検索に利用
- プレーヤー:埋め込みプレーヤー/ハイライトクリップ生成(共有リンク)
- 検索・可視化
- ポータルで全文検索(発話・OCR・キーワード・人物・ブランド)
- タイムラインで発話区間やシーン境界へジャンプ、要素ごとにフィルタリング
- 統合・運用
- API/SDK でアップロード→処理→インサイト取得を自動化
- 生成した字幕を配信系(Media Services / Streaming / YouTube 等)へ連携
- セキュリティ:Entra ID のロール、ストレージ保護、機微情報の取り扱いに注意
- 料金は処理分数を基準(音声のみ/映像込みで単価が異なるイメージ)
Azure AI Vision
- 概要
- (旧Computer Vision)
- 画像や動画の内容を自動理解する汎用ビジョンAPI
- 主要な機能
- 画像説明(Caption)/高密度キャプション/タグ付け・物体検出/OCR(Read)/人物検出(People)/背景除去/スマートクロップ/コンテンツ安全性判定
- Image Analysis(画像解析)
- イメージのタグ付け
- 画像に表示される物体、生物、景色、概念へラベルを付与する。
- 信頼スコア表示
- キャプション
- 画像全体を短い説明文で要約
- 高密度キャプションを使用すると、画像全体の説明+最大10個の領域(バウンディングボックス)に対して1つずつ説明文を作成
- オブジェクトの検出
- 画像に含まれている、物体の領域(バウンディングボックス)とタグを返す。
- イメージのタグ付けとの違い:オブジェクトの検出は物体や生物のみを検出するのに対して、イメージのタグ付けでは、位置特定できない概念的な用語も含まれる。
- テキスト認識(OCR)
- 画像内のテキストを抽出(PDFやHTMLなどの文書スキャン中心なら Document Intelligence を優先)
- 画像の分類
- 86カテゴリーから画像を分類
- 画像の種類の検出
- 描画かクリップアートかなどイメージの性質を検出
- ブランドの検出
- ブランドロゴのDBから商用ブランドを識別
- スマートトリミングされたサムネイル
- 構図を保った自動クロップと画像サイズの縮小(サムネイル)
- 人物検出
- 人の存在/位置の検出。※顔認証とは別
- Product Recognition
- 小売店の商品棚の分析ができる。製品の存在を認識しその領域を返す。
- マルチモーダル埋め込み
- 画像のベクター化
- 類似性の測定
- イメージの取得
- 背景除去 ※非推奨
- 前景の切り出し
- イメージのタグ付け
- Face
- 利用権限
- 顔検出は一般提供。本人確認(Verification)/個人特定(Identification)などの認証系は限定提供(申請が必要)
- 入出力
- 入力は URL かバイナリ。出力は
faceId
、ランドマーク、属性(例:headPose
,glasses
,mask
, 画質指標など)
- 入力は URL かバイナリ。出力は
- Identity API(代表的な認証系)
- Verify(1:1):2つの顔が同一人物か判定(信頼度スコアあり)。
- Identify(1:N):PersonGroup から最も近い人物を特定。グループ横断の検索は不可。
-
faceId
は短時間のみ有効(長期保存は自前で特徴管理せず Person* リソースで)
- 識別スコア
- 検出画像と基準画像の類似度を表す信頼度。しきい値はシナリオ別に設計(固定値で決め打ちせず検証)
- モデル種別(detectionModel)
- detection_01(既定):正面顔に強い(古い拡張属性に対応)
- detection_02:小さい顔/角度のある顔で検出向上
- detection_03:最新系。回転・小さい顔・ランドマーク精度が高い
- 顔の向き(HeadPose)
-
yaw/pitch/roll
で頭部の向きを推定(セキュリティ判断は単独で行わない。必要なら Liveness など別機能を併用)
-
- 利用権限
Azure AI Custom Vision
-
概要
- 自社データで画像分類と物体検出のモデルを学習・評価・配備できるサービス
- OCR や顔認証は対象外(それぞれ Azure AI Vision / Face を使用)
-
主な機能
- 画像分類:二値/多クラス、多ラベルに対応
- 物体検出:バウンディングボックスで対象物の位置とラベルを推定
-
ドメイン選択
- General / Food / Landmarks / Logo / Shelf など用途特化の学習プリセット(エッジ向け Compact も選択可)
-
Smart Labeler
- 一部だけ手動ラベル → 残りを自動アノテーション、不確実順で見直し
-
エクスポート
- ONNX / TensorFlow / Core ML / Docker コンテナ などエッジ・オフライン推論向けに出力
-
評価指標
- Precision / Recall / mAP などで反復学習(Iteration)を回す
-
Custom Vision と AI Vision の違い(使い分け)
項目 Azure AI Vision Azure AI Custom Vision 位置づけ 汎用ビジョンAPI(説明文・タグ付け・OCR・人物検出など) カスタム学習で専用の分類/物体検出モデルを作成 学習の要否 不要(プリビルト) 必要(自社データで学習) 対応タスク 画像分析・OCR・顔検出 等の広範機能 画像分類(多ラベル対応)/物体検出(BBox) モデル制御 ほぼ不可 ラベル定義・反復学習・モデル出力形式の選択(エクスポート) デプロイ クラウド API(一部コンテナ) Prediction API/エクスポート+エッジ推論 -
モデル作成手順
- プロジェクト作成(分類 or 物体検出、ドメイン選択)
- 画像アップロード&ラベリング(検出は BBox)
- 学習(Iteration 作成)
- 評価(Precision/Recall/mAP、混同行列)→ 反復
- 公開(Prediction API)またはモデルエクスポート(ONNX/TensorFlow/Core ML/Docker)
-
データ準備・モデル改善のコツ
- データ量:十分な枚数を確保(クラスごとの偏りに注意)
- バランス:クラス間の枚数差を抑える(例:A=50, B=500 だと要改善)
- 多様性:角度・距離・照度・背景・姿勢・配置をばらす
- ネガティブ:どのラベルにも当てはまらない画像を明示的に用意
- 誤分類の可視化:誤り/未検出例を優先レビュー(Smart Labeler の不確実順活用)
- データ拡張:回転・反転・切り出しなどでロバスト性を向上
-
デプロイと運用
- クラウド:Prediction API をエンドポイントとして利用
- エッジ/オフライン:エクスポートしたモデルを IoT Edge / モバイル / サーバーで推論
- コンテナ:予測用コンテナでオンプレ実行(学習はクラウドで実施)
- 監視:Iteration ごとの精度推移と推論ログを確認、データドリフトに応じて再学習
Azure AI Bot Service
Azure AI Bot Service ドキュメント (Microsoft Learn)
- 概要
- Azure上でボットを簡単にチャネル接続・公開
- 基本構成
- ホスティングは App Service / Functions / Container Apps / AKS など(Bot Serviceはチャネル接続とID連携のハブ)
- Teams / Slack / Web Chat / Direct Line / Direct Line Speech などと統合可能 (Microsoft Learn)
- Direct Line で自前ホストとも接続可能(Direct Line API / App Service Extension) (Microsoft Learn)
- 高可用性とスケーラビリティ
- 主な機能(Bot Service側)
- チャネル接続管理(Teams、Slack、Web Chat、Direct Line ほか) (Microsoft Learn)
- Microsoft App ID(Entra IDのアプリ登録)と資格情報の管理
- OAuth 接続の設定(外部IdPやMicrosoft Graphアクセス)
- プロアクティブメッセージ配信(イベント起点で送信) (Microsoft Learn)
- Application Insights 連携(テレメトリ、会話ログ) (Microsoft Learn)
- Web Chat / Direct Line 用のトークン発行(シークレット→短期トークン) (Microsoft Learn)
- ダイアログの種類
- スキル:他のボットと連携(ダイアログ型ではなくボット間連携の仕組み)
- アダプティブ:ユーザー入力に応じて会話の流れを変更
- プロンプト:特定の情報を入力してもらう(名前、日付 など)、正しい情報が入力されるまで繰り返すようなケースに利用。
- ウォーターフォール:質問→回答を段階的に進める
- カルーセル:カードの表示レイアウト(ダイアログではなくUI)
- Bot Framework SDK
- ボットの構築・テスト・デプロイ・管理のためのライブラリ/ツール群
- 主に C# / JavaScript(他言語は機能差・サポート差あり) (Microsoft Learn)
- ミドルウェア、状態管理、Teams拡張、認証などのサンプルあり (Microsoft Learn)
- デプロイ方法
- config-zip:
az webapp deployment source config-zip ...
- コンテナ:Docker イメージを App Service / Container Apps / AKS に配置
- CI/CD:GitHub Actions / Azure DevOps
- 小規模は App Service、大規模は AKS や Container Apps
- config-zip:
- Bot Framework Composer
- GUIでボットを構築(可視化された会話設計/対話テスト) (Microsoft Learn)
- QnA Maker
- 旧サービス。2025/10/31 廃止予定(延長後)。代替は Language Service の Question Answering(ナレッジベース/カスタムQA) (Microsoft Learn)
- カード
- テキスト、画像、ボタンなどのリッチコンテンツを提供
- アダプティブカード
- ヒーローカード
- アニメーションカード
- カルーセルはカードの横スライド表示
- Direct Line / Direct Line Speech
- Direct Line はテキスト対話用チャネル(自前クライアントやWeb Chatから接続) (Microsoft Learn)
- Direct Line Speech は Azure Speech 連携の音声入出力(音声UI向け) (Microsoft Learn)。WebSocketストリーミングを用いる(チャンネル有効化+Bot側受け口が必要)
- デプロイ時のIDと権限
- Entra ID のアプリ登録(Microsoft App ID)+シークレット/証明書を設定
- 外部APIやAzureリソースは OAuth 接続やマネージドIDで権限付与
- 機密情報は Key Vault 管理を推奨
- Bot Framework Emulator
- ローカルテスト(外部チャネル検証は ngrok 等でトンネル) (Microsoft Learn)
- トレースアクティビティ:Bot Framework Emulator向けのデバッグ専用。ボットの内部状態や処理の詳細を追跡するための特別なアクティビティ。
- ダイアログトリガー
- 特定の発話に応じて応答やアクションを実行
- 状態管理
- 会話/ユーザー状態は Cosmos DB / Blob など外部ストレージで永続化
- 監視・運用
- Application Insights のメトリクス/ログ
- スロットデプロイ
- 段階リリース
- ロールバック
Azure AI Immersive Reader
- 概要
- 新しい読者、言語学習者、ディスレクシア等の学習差異を支援する読解支援UIをアプリに埋め込むためのサービス
- Word/OneNote 等で使われる同系の体験を SDK + Webコンポーネント で提供(自前でNLPを学習するサービスではない)
- 主な機能(代表)
- 読み上げ(Read Aloud):合成音声で本文を読み上げ、単語ハイライトを同期
- 行フォーカス(Line Focus):1/3/5行など表示行を絞って集中を支援
- 品詞の強調(Parts of Speech):名詞/動詞/形容詞などを色分け表示
- 単語分割(Syllables):単語を音節に分割
- ピクチャー辞書(Picture Dictionary):基本語彙に対応する絵と発音を表示
- 翻訳(Translate):単語単位/全文を他言語に翻訳
- 数式読み上げ(Math):MathML を送れば数式の読み上げ・表示に対応
- 使いどころ
- 読解体験の改善が主目的:読みやすい表示・音声・翻訳・語彙支援を既製UIで素早く提供
- OCRやNLPの抽出は別サービス:画像の文字起こしは Vision/OCR、帳票の構造化は Document Intelligence、会話理解は Language/CLU
- 教育/学習アプリに最適:教材ビューア、リーディング支援、語学学習の補助UI
- 統合の基本
- Azure で Immersive Reader リソースを作成 → サーバー側でアクセストークンを発行 → クライアント(Web/アプリ)で SDK を呼び出して本文を表示
- 送れるコンテンツはプレーンテキスト/HTML/MathML など(用途に応じた MIME 指定)
- 読み上げ音声や翻訳の対応言語は機能ごとに異なるため、要件に合わせて確認
Azure AI Anomaly Detector
Azure AI Anomaly Detector ※2026年廃止予定
- 概要
- 時系列データの異常検知(単変量/多変量)、バッチ検証/リアルタイム推論に対応。ユースケースは IoT センサー、アプリKPI、需要・売上など。(Microsoft Learn)
- 新規リソース作成は停止中、サービスは2026年ごろに退役予定(既存は当面稼働)。試験では“レガシーの位置づけ”として把握しておく。(Microsoft Learn)
- 機能の押さえ所(AI-102)
- 単変量:系列ごとに季節性やトレンドを自動推定し、期待値・上下境界・異常フラグを返す。
- 多変量:複数系列の相関から異常を検出(根因手掛かりのスコアなどが得られる)。
- 変化点検出:レベルシフト等の構造変化を検出。(Microsoft Learn)
- デプロイ/実行形態
- API/SDK でクラウド推論。
- コンテナ提供あり:オンプレ/エッジで実行可(課金メータリング設定が必要)。(Microsoft Learn)
- セキュリティ(ネットワーク)
- Private Endpoint(VNet) や IP 制限に対応。DNS 解決をプライベート側へ向ける設計が必要。(Microsoft Learn)
- 参考:Speechで同様の閉域化を行う場合は、カスタムドメインの作成が必須(Private Link/Service Endpoints とも)。(Microsoft Learn)
- サービス選択の注意(退役関連)
- 同系の Metrics Advisor も作成停止&退役予定(監視UI・アラート等の上位機能を持つ)。新規設計なら他の監視・分析基盤の検討が前提。(Microsoft Learn)
- マイグレーション方針は公式で整理中との案内がある(Fabric 等への移行案内に言及)。(Microsoft Learn)