Amazon SageMaker Unified Studioの新機能検証

Last updated at 2025-08-06Posted at 2025-08-01

こんにちは。PwCコンサルティング合同会社の宮前です！

この記事は「2025 Japan AWS Jr. Champions 夏のQiitaリレー」の30日目の記事です。
過去の投稿（リンク集）はこちらからご覧ください！

はじめに

2023年11月にSageMaker Studioがデータカタログ、データガバナンス、分析、ML開発を横断する統一的なプラットフォームとしてリリースされました。
2025年3月に新たにSageMaker United Studioのがリリースされ、その変更点から見えてきた使用方法について検証してみました。
この記事では、Amazon SageMaker Unified Studioの機能や背景、DataZoneとの関係、構成、そして新たに登場したGenerative AI機能「Chat Agent」「Flow」の活用方法を紹介します。

Amazon SageMaker Unified Studioとは

概要

概要について、以下にまとめます。

2024年末に正式に提供が開始された、AWSにおけるデータ＆AI統合開発環境です。
従来のSageMaker Studioを拡張し、データ準備 → 分析 → 生成AIアプリ構築 → ガバナンス までを1つのワークスペースで完結します。
UIはモダンで、VS CodeやJupyterLabに近いGUIとなっています。
2025年のアップデートで、SageMaker Studio → SageMaker Unified Studioへのアップグレードツールが一般提供され、リソースを維持したままスムーズな移行が可能となりました。

DataZoneとの関係性

DataZoneとは

AWSが提供する ガバナンス付きデータカタログであり、S3やRedshiftなどのデータを「資産」として登録・検索・購読・アクセス制御可能にするサービスです。
下図のようにドメインという概念で区切られ、データポータルが提供されています。

出典：https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2023_Amazon-DataZone-Overview_1231_v1.pdf

Unified Studio（旧DataZoneから）の変化点

従来のDataZoneに対して新たなUnified Studioでは、統合されたことでDataZoneカタログへ直接アクセス可能となり、ETLやBedrockフローの入力データとして活用可能になりました。PromptにDataZone用語や定義を取り込むことも可能です。
そのほかの観点も踏まえて、以下の表で機能の変化点をまとめました。

	DataZone（旧）	SageMaker Unified Studio
データソース	S3に加えてRedshift or Glueなどのカタログ連携が中心。crawler設定が必要なケースも多い。	Apache Icebergが対応し、Iceberg形式へのKinesis統合も可能。Lakehouse経由でS3、Redshiftや3rd partyへのアクセスが可能。
クエリエンジン	Athenaによるクエリ実行が中心であり、チューニングが主導。エンドユーザーにはやや操作が難しい。	Athena、Spark、Redshiftなどが利用でき、自然言語によるデータ探索SQLが自動生成可能。
UI/環境	DataZone Portal + クラシックUI。複数画面・遷移が多かった。	SageMaker Studioに統合。タブUIでナビゲーションしやすく、開発者・アナリスト双方に使いやすい設計。
カタログ	データセット単位の登録・承認フローに特化。用途に応じたカタログ分割は手動管理が主。	タグ・分類・オーナー情報などの付与が強化され、生成AIで自動要約や分類支援も可能。
メタデータ管理	カタログ中心でメタデータは登録・検索可能だが、編集支援機能は限定的。	メタデータの編集・生成がGUI・API・AIで可能。クエリ補助や類似データ提案も導入。
データ準備と前処理	別途GlueやAthena上でETL作業が必要。DataZone単体ではGUI操作に制限あり。	Data WranglerやFlowがStudio内で利用可能。ノーコードで前処理〜分析まで完結可能。
外部ツールとの連携	QuickSightやRedshift Spectrumなどと連携可能だが、セットアップに専門知識が必要。	Redshift、Bedrock、QuickSight、SageMaker Pipelinesとシームレス統合。Studio内でワンクリック操作。
生成AIの機能強化	生成AIとの統合機能は特になし。	Chat Agent / Flow によりノーコードでのクエリ生成や生成AIアプリ開発が可能。

この変化から、SageMaker Unified Studioは、単なる機能統合にとどまらず、以下のような点でエンタープライズに大きな価値をもたらすと考えられます。

すべての役割が1つのUIで完結
データエンジニア、アナリスト、データサイエンティスト、業務担当など、役割の違うユーザーが同じStudio上で作業が可能となり、分断されていたデータ活用フローがつながります。
自然言語によるデータ探索
Chat Agent / Flowにより、SQLやコードに不慣れなユーザーでも対話的にデータへアクセスが可能となり、データの民主化が一気に進みます。
セキュアでスケーラブルな運用
IAM統合やLake Formation、タグベースのアクセス制御によって、データガバナンスを損なうことなく、安全にスケーラブルな運用が実現します。

Unified Studioは、単なる「統合環境」ではなく、企業のデータ活用・AI活用を加速させる中核基盤として進化し続けています。
しかし、Lakehouse経由でS3、Redshiftや3rd partyへのアクセスが可能となり、データマネジメントの柔軟性は高まりましたが、データを管理する上での責任範囲が複雑になってきていることが課題となりそうです。

Amazon SageMaker Unified Studioの画面構成

UIタブ構成の紹介

下図がSageMaker Unified Studioのポータル画面です。
Buildの下にあるUIタブから、以下4つの機能のデプロイが可能です。

ML and generative AI model development：Amazon SageMakerを用いて、機械学習モデルや生成AIモデル（LLMなど）の学習・チューニング・デプロイが可能
Generative AI app development with Amazon Bedrock：Bedrock上のFoundation Modelを活用したチャットボットやRAGなどの生成AIアプリケーションの開発・エージェント作成がコードで実施可能
Data processing and SQL analytics：Glue、Athena、Redshift、Sparkなどを使って、データの準備・変換・クエリ分析をノーコードまたはSQLで実行
Data and AI governance：SageMaker Catalogを通じて、データ資産やMLモデルのガバナンス（検索・分類・アクセス制御）を行い、組織全体のガイドラインに沿ったデータ活用を支援

ただし、この4つの機能はBlueprintを事前に有効化しておかなければ、ドメイン内でAWSリソースを扱うことができません。
Blueprintとは、ユースケースに応じたAWSリソースを定義したテンプレートです。

以降では、新機能として追加されたGenerative AI app development with Amazon Bedrockの「Chat agent」と「Flow」の使用手順について確認してみます。
下記のハンズオンを参考にしました。

Chat Agent / Flow の使用手順

Chat Agent

用途: 自然言語による対話型アシスタント（FAQ、社内ヘルプデスクなど）

手順:

Applications → Chat Agents を開く
Blueprint から用途に応じたテンプレートを選択（例: Customer Support Agent）
Prompt や Function、Knowledge Base、Guardrails を設定
起動 → 実際にチャットして検証

完成イメージ:

このチャットボットでは、Knowledge Baseの統合によって単一ファイルの情報を元にクエリできました。このファイルはWeb上のURLやローカルファイルはもちろん、データカタログとして格納されたデータを参照できることがわかりました。Knowledge Baseを使用すると、データカタログ上でRAGワークフローを使って最新の専有情報を活用できるため、データ活用の幅が広がることがイメージできました。

Flow

用途:
複数のAI機能をつないで業務ワークフローを自動化（例：契約要約 → 評価 → 出力）

手順:

Applications → Flows を開く
以下のコンポーネントをドラッグ＆ドロップして構成
- Prompt ノード
- Retrieval ノード（Knowledge base）
  - Knowledge baseではLakehouse内のデータ参照が可能
- Function ノード（Lambda）
- Agent ノード
「Test Run」でフロー全体を検証・調整