How to Create a Common Data Language Across Your Enterprise - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
レイクハウスとは何か?
最近、レイクハウスという単語がバズっています。これはデータベースですか?データウェアハウスですか?データレイクですか?簡単に言うと、データレイクハウスは、データレイクの柔軟性、コスト効率性やスケールと、データウェアハウスのパフォーマンスと信頼性を組み合わせた新たなオープンデータ管理アーキテクチャであり、統合されたガバナンス、セキュリティモデルを用いて、ビジネスインテリジェンス(BI)や機械学習(ML)を実現します。レイクハウスプラットフォームの主要なゴールは、企業がより良い意思決定をできるようにサポートすることです。
企業が直面している主要な課題の一つに、意思決定のための共通言語を見つけ出すというものがあります。これまでは、企業は意思決定を行うために自身の「スタック」を構築していました。これらのスタックは多くの場合サイロ化されており、アーキテクチャ的に複雑で、データアナリスト、データエンジニア、データサイエンティストたちのデータチームから分断されていました。さらに、それぞれの言語は、予測、過去、現在に関係なく、本質的にスタックから引き出し得る洞察に制限を課していました。
企業ないのデータチームが見る典型的なランドスケープ
この制限によって、ユーザーはテーブル、ビュー、レポート、ダッシュボード、KPIと言ったデータ資産に対する信頼を失っています。それらに関連づけられるメタデータやリネージュが不足していることから、彼らは特定のフィールドや単語が何を意味しているのかを知りません。例えば、カラム「date」はデータセットやユーザーによって異なる意味を持ちます。これは、洞察の抽出や優れた意思決定の妨げとなります。いずれにしても、データ資産の価値は、企業において理解され、信頼される能力から引き出されます。
以下の図では、従来のチームと彼らが使用する言語をブレークダウンしており、全く異なるアプローチがすぐに複雑になるの様子を示しています。
チーム | 言語 | ユースケース | 答えるべき質問 |
---|---|---|---|
データアナリティクス | SQL | データアナリティクス、BI | 何が起きたのか? |
データエンジニアリング | SQL、Python、Scala | ETL、大規模データ変換 | 何が起きたのか? |
ストリーミング | Python、Java、Scala | リアルタイム | ニアリアルタイムで何が起きているのか? |
データサイエンス | Python、SQL、R | 予測分析、AI/ML | 何が起きるのか?どのように対処すべきか?自動でベストな意思決定をできるか? |
複雑性に加えて、それぞれのデータプラットフォームでは特定の言語に限定されるので、エンドユーザーは使用する言語も制限されることになります。例えば、データウェアハウスはSQLに限定され、データサイエンスプラットフォームはPythonやRに限定されています。
企業の共通言語
異なるデータバックグラウンドやスキルを持つ多くのユーザーが単一のプラットフォームでコラボレーションできるようにする必要があるため、企業環境における共通言語を見つけ出すことは多くの場合困難です。であれば、共通言語とはどういうものになるのでしょうか?
こちらが重要な特性となります:
- 選択の自由: データチームのそれぞれのメンバーは、バックグラウンドに関係なしに自分の問題を解決するためにベストな言語を選択できる自由と能力を持つべきです。非構造化データを用いた予測ユースケースであろうが、構造化データによるBIユースケースであろうが、ユーザーは重要なビジネス上の疑問に答える助けになる言語を同じプラットフォームで選択する自由を持つべきです。
- シンプル: データチームのそれぞれのメンバーは、オペレーションのオーバーヘッドを気にすることなしに、ユースケースにフォーカスし、インパクトをもたらせるようになるべきです。データへのアクセス、アクセス権、リクエストはクイックかつユーザーにとってストレスの無いものであるべきです。アクセス権やセキュリティは一度定義したら、データ資産に対して適用されるべきものです。
- コラボレーティブ: データチームのそれぞれのメンバーは、データ、コード、インフラストラクチャへのアクセスに関して心配することなしに、ユースケースにおいて他のデータペルソナとコラボレーションできるべきです。全ての分析は、ユーザーベースによる自分の目的をコントロールできる自律性を持って、再現可能かつ容易に理解できるものであるべきです。
- データ品質: データチームのそれぞれのメンバーは、常に最新かつ最も信頼できるデータにアクセスできるべきです。これによって、最終製品から導き出される洞察が常に正確かつ信頼できるものであることを保証します。
Databricksのレイクハウスプラットフォームは、どのようにして企業の共通言語を実現するのか?
Databricksのレイクハウスプラットフォームは、企業規模での導入による強力なデータカルチャーの醸成、統合されたデータ戦略、共有データ言語を推進します
Databricksレイクハウスプラットフォームは、オープンソースとオープンスタンダードの上に構築されており、あなたのデータ戦略をどのように進化させるのかに関して自由度を持てることを意味します。現在そして未来の選択肢に対して囲われた庭や制約がないので、一つの場所でデータ、アナリティクス、AI/MLのさまざまなペルソナが作業することができます。全てのクラウドで一貫性のあるエクスペリエンスを提供することで、セキュリティ、データ管理、オペレーショナルモデルに対する重複した労力をかける必要はありません。
レイクハウスを用いた共通言語の確立は、3つのコアコンポーネントからスタートします。
- マルチクラウド: レイクハウスを用いることで、主要なクラウドプラットフォーム、Microsoft Azure、AWS、GCPの安価かつコモディティのストレージに全てのデータ(構造化、準構造化、非構造化)を格納します。これは、ベンダーロックインを強制する多くの従来のデータプラットフォームの課題に直接対応できることになります。このレイクハウスのマルチクラウドアプローチは、クラウドプロバイダーに対する選択の自由によって、データチームが更なる俊敏性と柔軟性を持てることを意味します。マルチクラウドによって、あなたのビジネスの変化に合わせて、プラットフォームの大きな制限を受けることなしに、お使いのデータプラットフォームが常にビジネスに適応できることを保証します。
- データの信頼性: 企業はパフォーマンスと信頼性のレイヤーを必要としています。DatabricksはACIDトランザクション、タイムトラベル、スキーマ強制、バッチ・ストリーミングの統合などのコンセプトを導入するDelta Lakeを提供しています。Delta Lakeによって、ワークロードのパターンに応じたデータレイクを設定することができます。レイクハウスプラットフォームに格納された高品質のデータによって、ユーザーは自分のデータを移動させたり、不正確なデータに関する問題に直面することなしに、再利用可能なパイプラインをSQLやPythonで記述し、MLモデルを構築することができます。ユーザーは分断されたシステムはプロプライエタリなデータゴーマットを心配する必要がなくなるので、データアーキテクチャの複雑性を削減し、生産性を向上させることができます。
- 容易なガバナンス: 企業はルールを強制するための単一のガバナンスレイヤーを必要とします。Unity Catalogの助けを借りて、Databricksは環境にあるデータ資産に対するルール、アクセス権、データ検索、リネージュを管理する、シンプルかつきめ細かいデータアクセスコントロールを提供します。ユーザーは遂にデータソースを信頼することができ、如何なる矛盾も見つけ出せるように前段のデータセットを辿ることができ、コラボレーションしながら優れた遺影決定を行えるようになります。一度設定してデプロイするだけです!
上述したパラダイムシフトを受けて、今や企業は堅牢な基盤を構築しています。これによって、いかなるユーザーも自分のユースケースを解決し、自分達のビジネスラインでアナリティクスとコラボレーションの文化を醸成しています。異なる部門は統合されたフレームワークと究極の共通言語を用いて、自分達の最も困難な問題を解決し続けることができます。
このコンセプトは革新的なものに聞こえるかもしれませんが、これがレイクハウスを構築する際に実際に起きることなのです。これはパラダイムシフトであり、スピードと洗練度に合わせた文化の変革を促すものです。我々はフリートライアルとソリューションアクセラレータを提供しており、あなたの組織で共通言語を用いることで、より強力なデータカルチャーに至る道のりを歩き始めるためのお手伝いをしています。