1.はじめに
この記事は、AWS Summit Japan 2025で開催されたセッション「企業内に分散したデータの分析とAI活用を推進する:AWSで実現するデータ活用の民主化」の内容を基に作成したものです。
生成AIが企業戦略の中心課題となる現代において、社内に散在する多様なデータをいかにして価値に変えるかが、企業の競争優位性を左右する重要な要素となっています。しかし、多くの企業がデータ基盤の課題に直面しています。
この課題に対し、Amazon Web Services(AWS)は、データ活用の障壁を取り除き「データ活用の民主化」を推進するための新たなソリューションとして「次世代 Amazon SageMaker」を発表しました。本レポートでは、生成AI時代における企業の課題を整理し、その解決策として提示された次世代 Amazon SageMakerの主要コンポーネント、メリット、アーキテクチャについて整理します。
2.前提と課題
生成AIへの期待が高まる一方で、その活用には大きな課題が存在します。
前提:加速するAI導入の潮流
CDO(最高データ責任者)の89%が生成AIの導入や投資を進めており、AIが業種や企業規模を問わず、ビジネスポートフォリオの中心的な要素となっていることは明らかです。
課題:AI活用を阻む3つの壁
多くの企業がAI活用のポテンシャルを最大限に引き出せていません。インタビューに答えたCDOの52%は、自社のデータ基盤がAIの高度な要求に対応できていないと評価しています。この背景には、主に以下の3つの課題があります。
-
データ統合、分析、AIを企業のスケールで
社内にデータが散在する「データサイロ」の状態では、部門横断的な分析が困難です。また、データエンジニア、データサイエンティスト、AIエンジニアといった役割の境界が曖昧になる中で、それぞれの専門家がシームレスに連携し、試行錯誤できる統合的な環境が求められています -
現在の投資を最適化し価値を高める
新しい技術への投資は不可欠ですが、既存のシステムや資産を無駄にすることなく、効率的に価値を最大化する必要があります。1からすべてを作り直すのではなく、既存の投資を活かしながら、スケーラビリティと高いコストパフォーマンスを両立させることが重要です -
エンドツーエンドのガバナンス
AIの信頼性は、その基となるデータの品質と信頼性に直結します。データの出所(リネージ)を明確にし、全社で一貫したセキュリティと品質管理を行うための、エンドツーエンドのガバナンス体制の構築が不可欠です
3.次世代 Amazon SageMakerの主要コンポーネント
これらの課題を解決し、「データ活用の民主化」を実現するソリューションとして、AWSは「次世代 Amazon SageMaker」を提案しています。
次世代 Amazon SageMakerの中核をなすのは、以下の3つのコンポーネントです。
Unified Studio
これまで個別のツールで行っていたデータ処理、SQL分析、AIモデル開発、生成AIアプリケーション構築といった一連の作業を、「Unified Studio」 と呼ばれる単一の統合インターフェースに集約します。これにより、異なる役割を持つチーム間のコラボレーションが円滑になり、開発サイクルが大幅に加速します。さらに、生成AIアシスタント「Amazon Q Developer」が組み込まれており、自然言語での質問を通じてコードやSQLクエリを自動生成し、開発者の生産性を高めます。以下7つのデータライフサイクルに1つまたは複数のサービスが対応し、それらはUnified Studioとして統合されています。
-
SQL analytics (Amazon Redshift)
SQLクエリを実行するための分析ツール -
Data processing (Amazon EMR, AWS Glue, Amazon Athena)
データの統合や前処理を行う -
Model development (Amazon SageMaker AI)
AIモデルのテスト、トレーニング、デプロイを行う -
Gen AI App development (Amazon Bedrock)
カスタム生成AIアプリケーションを構築する -
Streaming (Amazon MSK, Amazon Kinesis)
ストリーミングデータを扱う -
Business intelligence (Amazon QuickSight)
ビジネスインテリジェンス機能を提供 -
Search analytics (Amazon OpenSearch Service)
検索分析機能を提供
※ Streaming、Business intelligence、Search analyticsは今後Unified Studioへ統合を予定
Data & AI governance
データの発見から活用、監視まで、データライフサイクル全体を管理する強力なガバナンス機能を提供します。その中心となるのがSageMaker Catalog (Amazon DataZoneに構築) で、組織内のデータ、モデル、計算リソースといった資産を一元的にカタログ化し、検索・発見を容易にします 。データオーナーがリクエストを承認するだけでアクセス権限が自動的に付与されるワークフローなどにより、IT部門の負荷を軽減しつつ、セキュアで信頼性の高いデータ活用を促進します。
Lakehouse
Amazon S3のデータレイクとAmazon Redshiftのデータウェアハウスをシームレスに統合するLakehouseアプローチを採用しています。
Zero-ETL統合やフェデレーテッドクエリといった機能により、データを物理的に移動させる手間とコストなしに、社内外の多様なデータソース(SaaS、データベース等)に横断的にアクセスし、一元的に分析することが可能です 。また、Apache Icebergなどのオープンなテーブルフォーマットをサポートすることで、特定のツールやベンダーに縛られない柔軟なデータ活用を実現します。
4.次世代 Amazon SageMakerのメリットとアーキテクチャ
次世代 Amazon SageMakerは、具体的なビジネスインパクトと、それを支える柔軟なアーキテクチャを提供します。
メリット
-
開発期間の短縮
R社は、Zero-ETL統合によりデータ統合時間を70%、関連コストを50%削減できると予測しています。また、C社もSageMaker Unified Studioによって機能の実現速度が大幅に加速したとコメントしています -
高いコストパフォーマンス
Amazon S3 Intelligent-TieringやAmazon Redshift Serverless、Amazon SageMaker Hyperpodなどの活用により、ストレージコストやモデルトレーニング時間、データウェアハウスのコストを大幅に削減できます -
信頼できるAIの構築
エンドツーエンドのガバナンス機能により、データの品質と信頼性を確保し、それがAIの信頼性に直結します。T社は、SageMakerによってサイロ化されたデータを統合・管理し、品質問題の未然防止や顧客満足度の向上を実現しています
アーキテクチャ
次世代 Amazon SageMakerは「Lakehouse」アプローチにより、データレイクの持つ柔軟性(構造化されていないデータも含むあらゆるデータを格納できる)とデータウェアハウスの持つ信頼性・パフォーマンス(構造化されたデータに対する高速なクエリ)を兼ね備えたハイブリッドかつオープンテーブルフォーマットをサポートするアーキテクチャを採用しています。
5.まとめ
生成AI時代において、データは競争上の優位性そのものです 。その価値を最大限に引き出すためには、社内に散在するデータを誰もが安全かつ効率的に活用できる「データ活用の民主化」が不可欠です。
AWSが提供する「次世代Amazon SageMaker」は、統合された開発環境、あらゆるデータへのオープンなアクセス、そしてエンドツーエンドのガバナンスという3つの柱を通じて、データ活用の障壁を取り除きます 。これにより企業は、既存の投資を保護しながら、変化に迅速に対応し、信頼できるAIを構築して、真のビジネスインパクトを創出できるでしょう。
6.参考資料