LoginSignup
1
2

モダンデータスタック:その概要と重要な理由

Last updated at Posted at 2023-12-01

ここ数年の間に、クラウドネイティブのデータや、データの技術スタックのソリューションについて調べていれば、モダンデータスタックという言葉を耳にしたことがあるはずです。モダンデータスタックとは、簡単に言えば、データの収集、運用、分析を容易にするツール群のことです。
→ Ebookをダウンロードするモダンデータ基礎の3つの鍵

より詳細に言うと、モダンデータスタックとは、データドリブンな組織で、データを効率的に収集、処理、分析、可視化するために設計された包括的なフレームワークとツールの集合です。さらに、生成AIの自然言語クエリなどの機能で増強することもできます。モダンデータスタックは、デジタル時代における、データの複雑さと規模の拡大に対応するために進化してきました。ソフトウェアエンジニアとデータチームのリーダーからのニーズにも対応しています。この統合システムは、いくつかの主要コンポーネントで構成されていますが、たとえば、Dataikuのようなプラットフォームで実現できます。

1. データの取り込み

データベース、アプリケーション、外部APIなど、さまざまなソースのデータ収集から始まります。データは多くの場合、リアルタイムまたはバッチ処理で取り込まれます。

2. データストレージ

モダンデータスタックでは、膨大な量の構造化・非構造化データを扱うために、スケーラブルな分散ストレージの仕組みを採用しています。Amazon S3やGoogle Cloud Storageのようなクラウドベースのソリューションが一般的な選択肢です。

3. データ処理

Apache SparkやApache Flinkのようなデータ処理エンジンは、生データを意味のある洞察に変換するために使われます。このステップには、データのクリーニング、エンリッチメント、集計が含まれます。

4. データウェアハウス

データは多くの場合、SnowflakeやBigQueryのようなデータウェアハウスに格納され、構造化されたクエリやレポーティングを行い、BIやその他分析をできるようにします。

5. データの可視化

Tableau、Looker、Power BIなどのツールは、データチームのリーダーが洞察を得て、情報に基づいた意思決定を行うためのインタラクティブなダッシュボードやレポートを提供します。

6. オーケストレーション

Apache AirflowやPrefectのようなワークフロー管理ツールを使うことで、データパイプラインの自動化を行い、スムーズなデータフローを実現します。

7. 監視とガバナンス

モダンデータスタックには、データのリネージ、品質チェック、セキュリティの機能が含まれています。また、データの正確性とGDPRやCCPAなどの規制へのコンプライアンスを保証します。

この合理化されたアプローチにより、ソフトウェアエンジニアとデータチームのリーダーは、最新のテクノロジーを活用して協力的に作業し、価値あるインサイトを抽出して、組織のデータ中心戦略を推進できます。

しかし、モダンデータスタックにはそれ以上の価値があります。ここでは、みなさまの組織でデータスタックを構築または実装する前に、モダンデータスタックの状況について理解しておくべき重要な事柄をいくつか紹介します。

モダンデータスタックについて知っておくべきこと

多くの企業は、長年のデータに関する課題を解決しようとしています。次の課題は、今日の大企業にとっても大きな課題です。

  • サイロ化を解消したい
  • より多くのユーザーがデータを利用できるようにしたい

問題は変わっていませんが、最近変わったのは(そしてモダンデータスタックが対処するのは)アップストリームデータの性質です。今日、データは主にSaaS(Software as a Service)製品からもたらされます。SalesforceのようなCRM(顧客関係管理)プラットフォーム、HubSpotのようなマーケティング・プラットフォーム、あるいは社内のさまざまなチームで使用されるその他の製品など、その種類は多岐にわたります。言うまでもなく、社外のサードパーティデータの台頭は、ビジネスの成功にとってかつてないほど重要になっています。なぜこの変化が重要なのでしょうか?

ひとつは、データ量(と予測不可能性)の驚異的な増加により、従来のインフラではサービスの中断やスローダウンを引き起こす可能性があり、新しいタイプの弾力性が必要になるということです。また、昔からあるデータソースに接続する従来の抽出、変換、ロード(ETL)ツールは、こうした新しいデータソースへの接続が難しい場合があります。Fivetranのようなツールは、SaaSツールからデータを取り出し、クラウドデータウェアハウス(Snowflakeなど)に入れることで、この課題に対処しています。

ITとモダンデータスタック

モダンデータスタックに関連する重要なバズワードには、"マネージド"、"サーバーレス"、"必要な専門知識が少ない" などが挙げられえます。従来のデータエンジニアリング、ウェアハウス、データレイクのセットアップでは、ストレージを増やそうとするたびに、コンピュートも増やす必要がありました。そのため、ストレージコストを増加させないように、データ変換(つまりETLの「T」)を事前に行うことが重要であり、データエンジニアを雇用して複雑なパイプラインを構築し、データ構築ツールを使用する必要がありました。

モダンデータスタックでは、ストレージとコンピュート(計算機)が独立しているため(そしてクラウドのデータウェアハウスは大量のデータを安価に保存できるため)、データ変換をよりオンデマンドで行うことができて、IT部門の負担は軽減されます。

その一方で、クラウドならではの課題である、ガバナンスという問題があります。モダンデータスタックに関するガバナンスとはどのようなものでしょうか?もしアナリストやビジネスユーザーが今後さらにデータ変換を行うようになるとしたら、そのプロセスはどのようなもので、どのようにすれば混乱(あるいは同じデータを何度も変換することによる非効率)を引き起こさなくできるでしょうか?

GM2108-DAC+The+Modern+Data+Stack+in+the+ML-AI+Era_v4 (1).jpg
モダンデータスタックを使ったツール例

企業がデータスタックにこだわる理由

モダンデータスタックに関して言えば、課題はデータそのものが異なることで、使いやすさが最も重要です。これはすべて、私達が日々実際にデータをどのように利用するかということにつながっていきます。

例えば、マーケティングチームがSalesforceとHubSpotの両方から送られてくるデータを分析する必要があるとしましょう。同社はFivetranと契約しているため、両方のツールからデータをSnowflakeにうまく抽出し、そこでデータを使用できます。データパイプラインを維持するためにデータエンジニアを雇ってすべてのETLを行う必要はありません。どうやったらこれが実現できるでしょうか?

ビジネスユーザーは分析する際にビジネスインテリジェンス(BI)ツールを活用できますが、(必然的に)その分析をさらに一歩進めたい場合、例えば機械学習(ML)を利用したい場合、どうするでしょうか?あるいは、マーケティングチームがすでに知っているツール、つまりSalesforceやHubSpotを使い続けたい場合はどうなるのでしょうか?

今日の組織は、拡張性のある方法を必要としています。

1. 環境を構築する

データエキスパートがクラウドのデータウェアハウス上で高度なデータサイエンスを行えるようにします。これは、データ処理タスクのプッシュダウンを含みます。データサイエンスのプロジェクトを迅速に運用し、ビジネスサイドの消費者が活用できるようにします。

2. 横断的に構築する

アナリストのようなドメイン専門家が高度なデータ作業を行えるようにします。

3. すべての人のために構築する

様々なツールでの分析結果を、ビジネスユーザーが活用しているSaaSツールにプッシュバックします。

言い換えれば、モダンデータスタックとは、どのようなデータのニーズであっても、すべてのユーザーにシームレスなエクスペリエンスを提供することだと言えます。

モダンデータスタックを構築する方法

Dataikuは、Everyday AIを実現するためのプラットフォームを提供しています。アナリストからデータ専門家、ドメイン専門家まで、誰もが簡単にコラボレーションできるようにすることで、シームレスなエクスペリエンスを作成するのに役立ちます。具体的には次のようなことができます。

  1. データへの接続
  2. 使いやすいビジュアルデータ準備
  3. 自動機械学習(AutoML)の使用
  4. レポートや可視化ダッシュボードの作成
  • このすべてを、Dataiku一箇所で実行できます。

FlowWithTags-1.png
作成者の役割別にタグ付けされたビジュアルなDataikuフローの例

それだけではありません。Dataikuは、リバースETLコンポーネントの構築を容易にし、データを運用ツールにフィードバックすることもできます。また、データサイエンティストやその他のデータ専門家からデータ消費者への橋渡しもできるため、AIプロジェクトやアプリケーションの運用をより多くの人々が利用できるようにすることもできます。

さらに、データサイエンスからBI、ビジュアライゼーション、リバースETLに至るまで、これらすべてのコンポーネントが1つのツールで実現されるため、各コンポーネントがうまく連携するのです。

すべての人のためのモダンデータスタック

モダンデータスタックといえば俊敏性が命と言われますから、Dataikuはまさにうってつけです。データサイエンティスト、エンジニア、アーキテクトなどのためのフルコードから、アナリストやビジネスエキスパートのためのノーコードまたはローコードまで、Dataikuはすべてのデータ作業のための中心的なツールです。

IT面での使いやすさも重要です。 チームや組織内の全員が作業できる場所を確保することは大事です。各自が異なるツールに投資し、それらの連携を考える必要はなくなります。

Dataiku Cloudによるフルマネージドオプション

Dataikuは、クラウド上のソフトウェアレイヤーとして活用することができます。Dataiku Cloudは、モダンデータスタックのために構築されています。フルマネージドオプションをお探しのチームや組織にとって、マネージド、サーバーレス、メンテナンス(管理およびアップグレード)に必要な技術的専門知識が少ないDataiku Cloudは最適なオプションでしょう。

モダンデータスタック、そしてDataikuの一番のポイントは柔軟性です。組織は、現在、そして5年後、あるいはさらに先の未来に普及しているどんなテクノロジーでも機能するアーキテクチャに投資するべきです。

将来について考えるとき、スケールできるかどうかは重要です。Dataikuは、お客様の成功に合わせて規模を拡大できます。スタートアップから多国籍大企業で試行、テスト、大規模採用まで、世界中で45,000人以上のユーザーを持ち、この分野のリーダーとして認められています。

Dataiku Cloudを今すぐ試す

14日間のトライアルを開始して、その良さをご自身でお確かめください!



原文:The Modern Data Stack: What It Is and Why It Matters

1
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
2