More than 1 year has passed since last update.

Modern Data Stackを整理してみた

Last updated at 2024-04-11Posted at 2024-01-20

背景・目的

Modern Data Stack（以降、MDSといいます。）について、明確に理解できてなかったのでキャッチアップのため整理します。

まとめ

下記に特徴があります。

項目	内容
概要	データ活用のためのSaaSサービス・ソフトウェア群。複数のカテゴリで構成される。
登場の背景	下記が考えられる。・クラウドネイティブになった・多様なワークロードに対応する。・分析までのスピードを上げるニーズが高まってきた。
メリット	・コスト・開発スピードの向上・敷居の低さ（従来のデータエンジニアではなくても良い）・分析までのスピードアップ
カテゴリ	・ETL Tools ・Data Workspace/ Collaboration ・Data Modelling and Transformation ・Data Warehouses ・Feature Store ・Event Tracking ・Metrics Store ・Business Intelligence (BI) ・Augmented Analytics ・Operational Analytics ・Data Cataloging ・Synthetic Data ・Data Privacy and Governance ・Spreadsheet based BI ・Reverse ETL Tools ・Workflow Orchestration ・Data Discovery ・Business Reliability/Observability ・Data Quality Monitoring ・Data Mesh ・Data Streaming ・PLG CRM ・Change Data Capture ・Managed Data Stack ・Product Analytic ・Customer Data Platform(CDP) ・DataOps ・Data Apps

概要

Modern Data Stackとは

Overview of The Modern Data Stack / モダンデータスタック概論を下記のように記載がありました。

データ活用・管理領域における現代の環境に合うような設計の新しいサービス・ソフトウェア群
システムの進化、ニーズの急増、データ活用領域の拡大によるトレンドの変化を指すバズワード

データ領域のサービス・ソフトウェア群
バズワード

いま話題のモダンデータスタックとは？dbtとの関係性も解説>モダンデータスタックとは？には、下記の記載がありました。

モダンデータスタックは、近年メジャーになったデータエンジニアリングサービスのなかでも、クラウドで動作するSaaSタイプのサービスを30のカテゴリーに分類したものです。
各カテゴリーはさらに大きく4つのカテゴリーに大別でき、それぞれデータ分析の各プロセス（後述）に対応しています。

データ統合、ETLサービス
DWH、データレイクサービス
データ変換サービス
データ分析サービス

SaaSタイプのサービスを30カテゴリに分類し、4つに大別できる。

各カテゴリーのサービスを組み合わせることで、クラウドベースのデータ分析基盤を構築できます。

組み合わせて利用する。

従来のオンプレミス環境主体の体制から、クラウドサービスへ転換することでコストを抑えたデータ活用の体制を作れる点がメリットです。

クラウドサービスを使用し、コストを抑えてデータ活用できる

またモダンデータスタックに数えられるサービスの多くは、データエンジニアだけでなく非エンジニアにも利用可能な作りを志向しており、コスト面にくわえてデータエンジニアリングのハードルを下げられます。

データエンジニア以外も利用できる

Modern Data Stackの背景

Overview of The Modern Data Stack / モダンデータスタック概論
によると、大きく下記の3つの変化が背景のようです。

開発・運用コストが激減

スケーラブル

データエンジニアの役割の変化

ビッグデータユーザ以外のユーザも利用することになり、様々なユースケースに対応できるように進化してきた。
従来のETLからELTに変化してきた。
データ分析のための開発や運用が必要になってきた。

いま話題のモダンデータスタックとは？dbtとの関係性も解説>なぜモダンデータスタックはトレンド化しているのかには、下記の記載がありました。

ビッグデータという言葉が登場して以降、オンプレミス環境主体のデータ分析基盤（レガシーデータスタック）は2つの課題を抱えていました。

データ分析に基づいたスピーディーな意思決定が必要とされるのに、分析がそのスピードに追いつかない

増え続ける社内のデータ量が物理サーバーに収まらない

データ分析までにスピードがかかる
オンプレからクラウドへの移行

考察

今回、DataMeshの特徴と、登場した背景、どのようなカテゴリがあるかを整理しました。
それぞれ深く調べていませんが、俯瞰して整理できたのは今後プロダクトを考える上でインデックスが張られてヒントになりそうです。
今後は、これを起点にそれぞれ深掘りしていきたいと思います。

まとめ

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

Modern Data Stackを整理してみた

背景・目的

まとめ

概要

Modern Data Stackとは

Modern Data Stackの背景

カテゴリ

ETL Tools

Data Workspace/ Collaboration

Data Modelling and Transformation

Data Warehouses

Feature Store

Event Tracking

Metrics Store

Business Intelligence (BI)

No code automation

Augmented Analytics

Operational Analytics

Data Cataloging

Synthetic Data

Data Privacy and Governance

Spreadsheet based BI

Reverse ETL Tools

Data Lakes

Workflow Orchestration

Data Discovery

Business Reliability/Observability

Data Quality Monitoring

Data Mesh

Data Streaming

PLG CRM

Change Data Capture

Managed Data Stack

Product Analytic

Customer Data Platform(CDP)

DataOps

Data Apps

考察

まとめ