2024 年 12 月現在、Amazon SageMaker Unified Studio はプレビュー版として提供されています。
はじめに
株式会社 NTT データ デジタルサクセスソリューション事業部 の @nttd-kmym です。
2024 年 12 月の AWS re:Invent 2024 にて、AWS から新しいデータ分析プラットフォームとして Amazon SageMaker Unified Studio が発表されました!
このサービスは、 SageMaker という名前がついていますが、 AWS の既存のデータアナリティクス、機械学習、生成 AI 関係のサービスを統合したオールインワン型のデータ分析基盤です。今回は、この Amazon SageMaker Unified Studio のプレビュー版を実際に構築してみましたので、その手順についてご紹介いたします。この記事の内容は、AWS の以下の公式ドキュメントに基づいて実施しております。
Amazon SageMaker Unified Studio とは
Amazon SageMaker Unified Studio は、機械学習のワークフロー全体をサポートする統合型のデータ分析環境です。従来の Amazon SageMaker の機能に加え、より包括的なデータ分析基盤を提供します。
2024 年 12 月以降、従来の Amazon SageMaker は「Amazon SageMaker AI」という名称に変更されました。
これまで複数の AWS サービスを組み合わせて提供していたデータ分析環境を、Amazon SageMaker Unified Studio によって統合し、より効率的にデータ活用を実現することができるようになります。
Amazon SageMaker Unified Studio の構築
Amazon SageMaker Unified Studio の構築は、以下の 2 つのステップで行います。
- ドメインの作成
- プロジェクトの作成
それでは、Amazon SageMaker Unified Studio の構築手順を見ていきましょう。
今回は検証用のクイックセットアップを利用します。本番環境での構築には AWS の公式ドキュメントを参考にしてください。
ドメインの作成
ドメインとは、アセット(データやモデルなど)、ユーザー、そしてそれらのプロジェクトを統合的に管理するための組織単位です。
Step 1: コンソールアクセスとリージョン選択
AWS マネジメントコンソールにログインし、バージニア北部リージョン(us-east-1)に移動します。Amazon SageMaker Unified Studio のコンソールに移動し、「Unified Studio ドメインを作成」をクリックします。
Step 2: セットアップ方法の選択
セットアップには「クイックセットアップ」と「手動設定」の 2 つのオプションがあります。今回は検証目的の環境を作成するため、「クイックセットアップ」を選択します。
クイックセットアップを選択すると、「VPC を作成」というボタンが表示されます。これをクリックすると VPC を作成するための AWS CloudFormation の画面に移動します。
Step 3: VPC の作成
Amazon SageMaker Unified Studio を利用するためには専用の VPC が必要です。テンプレートが用意されているので、これを利用して必要な VPC リソースを作成します。開いた AWS CloudFormation の画面から、「スタックの作成」をクリックします。
数分後、スタック作成が完了すると、以下のような VPC 環境が準備されます。
Step 4: VPC を設定
作成された VPC を使用して Amazon SageMaker Unified Studio の VPC として設定します。サブネットはプライベートサブネットを全て選択し、パブリックサブネットは選択しないようにします。
VPC を選択したら、最後の「ドメインを作成」ボタンをクリックします。
Step 5: ドメインの作成完了
ドメインの作成が完了すると、以下のような画面が表示されるので、「統合スタジオを開く」のボタンをクリックします。
Amazon SageMaker Unified Studio のドメインを作成することができました。
プロジェクトの作成
ドメインが作成されたら、次にプロジェクトを作成を行います。Amazon SageMaker Unified Studio におけるプロジェクトとは、ドメイン内でコードやデータなどのアセットを管理するための作業スペースです。
プロジェクトは、プロジェクトプロファイル(テンプレート)を基に作成され、チーム内でのデータやコードなどのアセットの共有を可能にします。
プロジェクトの種類
Amazon SageMaker Unified Studio では、用途に応じて 3 種類のプロジェクトプロファイルが用意されています:
-
Data Analytics & AI-ML Development
AWS Glue、Amazon EMR、Amazon SageMaker、MWAA、Amazon Redshift Serverless などのサービスを活用し、データ処理からモデル開発が可能です。
-
Generative AI Development
Amazon Bedrock の各種機能(Chat Agents、Knowledge Bases、Guardrails、Functions、Prompts)を活用して、生成 AI アプリケーションの開発が可能です。
-
SQL Analytics
SageMaker Lakehouse、Amazon Redshift、Amazon Athena を利用して、SQL ベースのデータ分析が可能です。
各プロジェクトタイプは、それぞれのユースケースに応じたサービスが提供されています。プロジェクトの目的に応じて、適切なプロファイルを選択することで、効率的に分析環境を構築することが可能です。
プロジェクトの作成手順
それでは、実際にプロジェクトを作成していきましょう。
Step 1: プロジェクトの作成開始
Amazon SageMaker Unified Studio のダッシュボードから「プロジェクトを作成」をクリックします。
Step 2: プロジェクトタイプの選択
目的に合わせて、適切なプロジェクトテンプレートを選択します。今回は「Data Analytics & AI-ML Development」を選択し、「Continue」をクリックします。
次に、プロジェクトのパラメーターが表示されますが、すべてデフォルトのままで「Continue」をクリック、最後に「プロジェクトを作成」をクリックするとプロジェクトが作成されます。
数分後、プロジェクトが作成されると、以下のような画面が表示されます。
Data Analytics & AI-ML Development プロジェクト画面:
他のプロジェクトタイプも同様に作成することができます。
Generative AI Development プロジェクト画面:
まとめ
Amazon SageMaker Unified Studio のプレビュー版を構築してみました。Amazon SageMaker Unified Studio は、データ活用における様々なニーズに対応するため、データ分析、AI-ML 開発、SQL 分析などのプロジェクトを統合的に管理することができます。現時点ではプレビュー版として提供されているため、本番環境での利用には慎重な判断が必要ですが、AWS のデータ分析基盤として非常に期待できるサービスだと感じています。今後の正式リリースや機能追加にも注目していきたいと思います。
他にも Amazon SageMaker Unified Studio について発信をしておりますのでぜひご覧ください!
NTT データによる Amazon SageMaker Unified Studio の機械学習モデル開発の機能検証
AWS 最新サービス「Amazon SageMaker Unified Studio」をいち早く解説! ~オールインワン・データプラットフォームの台頭~
仲間募集
NTT データ デザイン&テクノロジーコンサルティング事業本部 では、以下の職種を募集しています。
1. クラウド技術を活用したデータ分析プラットフォームの開発・構築(ITアーキテクト/クラウドエンジニア)
クラウド/プラットフォーム技術の知見に基づき、DWH、BI、ETL領域におけるソリューション開発を推進します。https://enterprise-aiiot.nttdata.com/recruitment/career_sp/cloud_engineer
2. データサイエンス領域(データサイエンティスト/データアナリスト)
データ活用/情報処理/AI/BI/統計学などの情報科学を活用し、よりデータサイエンスの観点から、データ分析プロジェクトのリーダーとしてお客様のDX/デジタルサクセスを推進します。https://enterprise-aiiot.nttdata.com/recruitment/career_sp/datascientist
3.お客様のAI活用の成功を推進するAIサクセスマネージャー
DataRobotをはじめとしたAIソリューションやサービスを使って、 お客様のAIプロジェクトを成功させ、ビジネス価値を創出するための活動を実施し、 お客様内でのAI活用を拡大、NTTデータが提供するAIソリューションの利用継続を推進していただく人材を募集しています。4.DX/デジタルサクセスを推進するデータサイエンティスト《管理職/管理職候補》
データ分析プロジェクトのリーダとして、正確な課題の把握、適切な評価指標の設定、分析計画策定や適切な分析手法や技術の評価・選定といったデータ活用の具現化、高度化を行い分析結果の見える化・お客様の納得感醸成を行うことで、ビジネス成果・価値を出すアクションへとつなげることができるデータサイエンティスト人材を募集しています。ソリューション紹介
Trusted Data Foundationについて
~データ資産を分析活用するための環境をオールインワンで提供するソリューション~https://enterprise-aiiot.nttdata.com/tdf/
最新のクラウド技術を採用して弊社が独自に設計したリファレンスアーキテクチャ(Datalake+DWH+AI/BI)を顧客要件に合わせてカスタマイズして提供します。
可視化、機械学習、DeepLearning などデータ資産を分析活用するための環境がオールインワンで用意されており、これまでとは別次元の量と質のデータを用いてアジリティ高く DX 推進を実現できます。
NTTデータとDatabricksについて
NTTデータは、お客様企業のデジタル変革・DXの成功に向けて、「databricks」のソリューションの提供に加え、情報活用戦略の立案から、AI技術の活用も含めたアナリティクス、分析基盤構築・運用、分析業務のアウトソースまで、ワンストップの支援を提供いたします。TDF-AM(Trusted Data Foundation - Analytics Managed Service)について
~データ活用基盤の段階的な拡張支援(Quick Start) と保守運用のマネジメント(Analytics Managed)をご提供することでお客様のDXを成功に導く、データ活用プラットフォームサービス~https://enterprise-aiiot.nttdata.com/service/tdf/tdf_am
TDF-AM は、データ活用を Quick に始めることができ、データ活用の成熟度に応じて段階的に環境を拡張します。プラットフォームの保守運用は NTT データが一括で実施し、お客様は成果創出に専念することが可能です。また、日々最新のテクノロジーをキャッチアップし、常に活用しやすい環境を提供します。なお、ご要望に応じて上流のコンサルティングフェーズから AI/BI などのデータ活用支援に至るまで、End to End で課題解決に向けて伴走することも可能です。
NTTデータとSnowflakeについて
NTTデータでは、Snowflake Inc.とソリューションパートナー契約を締結し、クラウド・データプラットフォーム「Snowflake」の導入・構築、および活用支援を開始しています。 NTTデータではこれまでも、独自ノウハウに基づき、ビッグデータ・AIなど領域に係る市場競争力のあるさまざまなソリューションパートナーとともにエコシステムを形成し、お客さまのビジネス変革を導いてきました。 Snowflakeは、これら先端テクノロジーとのエコシステムの形成に強みがあり、NTTデータはこれらを組み合わせることでお客さまに最適なインテグレーションをご提供いたします。NTTデータとInformaticaについて
データ連携や処理方式を専門領域として10年以上取り組んできたプロ集団であるNTTデータは、データマネジメント領域でグローバルでの高い評価を得ているInformatica社とパートナーシップを結び、サービス強化を推進しています。NTTデータとTableauについて
ビジュアル分析プラットフォームのTableauと2014年にパートナー契約を締結し、自社の経営ダッシュボード基盤への採用や独自のコンピテンシーセンターの設置などの取り組みを進めてきました。さらに2019年度にはSalesforceとワンストップでのサービスを提供開始するなど、積極的にビジネスを展開しています。これまで Partner of the Year, Japan を 4 年連続で受賞しており、2021 年にはアジア太平洋地域で最もビジネスに貢献したパートナーとして表彰されました。
また、2020 年度からは、Tableau を活用したデータ活用促進のコンサルティングや導入サービスの他、AI 活用やデータマネジメント整備など、お客さまの企業全体のデータ活用民主化を成功させるためのノウハウ・方法論を体系化した「デジタルサクセス」プログラムを提供開始しています。
NTTデータとAlteryxについて
Alteryxは、業務ユーザーからIT部門まで誰でも使えるセルフサービス分析プラットフォームです。 Alteryx導入の豊富な実績を持つNTTデータは、最高位にあたるAlteryx Premiumパートナーとしてお客さまをご支援します。導入時のプロフェッショナル支援など独自メニューを整備し、特定の業種によらない多くのお客さまに、Alteryx を活用したサービスの強化・拡充を提供します。