Learn the Shared Vision for Analytics on Azure From Databricks and Microsoft- The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
注意
2020年時点の記事です。
さまざまな分析サービスと製品の全体像は複雑であり、進化続けているという現実を認めましょう。Azure Databricksを生み出したDatabricksとマイクロソフトのパートナーシップは4年前にスタートし、それ以来Azure DatabricksはAzure Synapseのような他のAzureサービスとともに進化し続けています。Azure上でDatabricksとマイクロソフトの長所を組み合わせた分析基盤を構築するために、Unilever、Daimler、GSKのようなお客様に対して、Databricksとマイクロソフトがともに取り組みを続けていること自体は変化していません。これらすべては、分析プラットフォームに対する共通したビジョンによるものです。
データを一つの場所に
分析チームがあらゆるタイプの分析を一つの場所で行えるようにする共通データソースを確立するという普遍的なゴールがあります。これによって、いわゆる分断されたデータサイロという分析におけるフラストレーションや複雑性の主な原因を排除することができます。共通データソースを構築する他mには、比類なき性能、スケール、価値をもたらすクラウドストレージに目を向けるのは自然なことです。この記事から何も得られないとしても、ご自身の分析のジャーニーの最適な第一歩として、Azure Data Lake Storage (ADLS)のようなクラウドストレージの上に構築したデータレイクにすべてのデータを入れるということを覚えておいてください。さらに、あなたのデータをADLSに直接同期、あるいは移動するために、例えばAzure Data Factoryのような素晴らしい数多くの選択肢が存在します。
次に覚えるべき重要なことは、クラウドストレージ上に構築されたデータレイクは、分析に共通して必要となるデータベースのような機能のすべてはネイティブで提供されないということです。歴史的に、Parquetのようなデータフォーマットを用いてデータレイクを実装しているチームにとってのペインとなっていましたが、ここ数年でデータレイクに対するトランザクションログや関連機能を提供するイノベーションを目撃しています。Delta Lakeがベストな例となります。もともとDatabricksによって開発され、今ではLinux Foundationによって管理されるオープンソースプロジェクトとなっています。データを確実に分析で利用できるようにするために、Delta Lakeはトランザクションのサポートと、データをキュレーションするためのデータ品質機能を提供し、スキーマを強制し、信頼できるデータを保証します。Azure Databricksで処理されるデータの大部分はすでにDelta Lakeに格納されており、Starbucks、Grab、Mars Petcareのようなお客様が、自身のデータプラットフォームの基礎を構築するためにDelta Lakeを活用している他の事例となります。
Azure Databricks、Azure Synapse、Power BIを組み合わせて使う
ADLSとDelta Lakeの結合が、Azureにおける分析に対するDatabricksとマイクロソフトの共通ビジョンの中心にあります。Databricks、Synapse、Power BIのようなキーとなる分析サービスが具備されており、一つの場所でこのデータに取り組む準備ができているので、BI、データサイエンス、データエンジニアリングにまたがる分析シナリオに取り組むことが容易となります。Azure Databricksは、生産的かつコラボレーティブなプラットフォームと、コードファーストのデータパイプラインによって、データエンジニアとデータサイエンティストを強力に支援するベストな環境を提供します。Azure Synapseはノーコード・ローコード環境とインテグレーションされた、低レーテンシーかつ高い同時実行性に対する高性能データウェアハウスを提供します。これら両方とも、分析者にデータに対して最も一般的な文法、SQLを用いて直接レイクにアクセスする分析サービスを提供するので、Azureユーザーに多大なるメリットをもたらします。
また、Azureにおけるこれらのサービスは、内部接続された分析のメッシュを形成するために違いにインテグレーションされています。Azure Databricksには、現在Databricks全体で最も人気のあるサービスコネクターである、ビルトインかつ高度に最適化されたSynapseコネクターを提供しています。Marks & SpencerやRockwell Automationのような数多くのお客様が、高性能、スケーラビリティのためにクラウドに自身のモダンな分析プラットフォームを構築するために、Azure DatabricksとAzure Synapseをともに用いたとしても驚くことではありません。Power BIはすでにSynapse Studioの一部であり、新たなAzure Databricks向けPower BIコネクターを用いることで、同じPower BIサービスを通じて素晴らしいBIのビジュアライゼーションとレポートを提供することがより簡単かつ高性能になります。同じデータレイクに対して、これらのサービスを組み合わせて活用することで、Azureが分析に適した場所となります。
何がAzure Databricksを特別なものにしているのか
クラウド分析プラットフォームのデリバリーは大変なものです。これまでにも、分析ソフトウェア開発における複雑性は存在していましたが、今度はこれがクラウド規模のソリューションの設計における微細な点と違いと結びつきました。何が必要になるのかを理解するためには、Databricksの共同創始者でありチーフテクノロジストであるMatei Zahariaによる大規模クラウドソフトウェアの開発に関するプレゼンテーションと教訓をご覧ください。
すぐに明らかになるのは、内部のクラウドインフラストラクチャとクラウドサービスに、素晴らしいエンジニアリングのコラボレーションがどの程度依存するのかということです。これは、クラウド規模で動作し、毎日数百万規模のVM時間を生み出し、月当たりエクサバイトのデータを処理するAzure Databricksに対しては重要なこととなります。Azure Databricksの処理の規模においては、計算、格納、ネットワーキングのために内部のAzureサービスを活用しており、計算リソースのリクエストプロトコルやネットワークのスロットリングのような詳細に対して、本気のジョイントのエンジニアリングの作業なしには、偉大な性能を達成することは不可能だったでしょう。
これが、Azure Databricksを特別にしている大きな部分です。マイクロソフトのファーストパーティサービスとして、DatabricksとAzureのエンジニアリングは常にともに取り組み、定期的に数十の次元でパフォーマンスとスケーラビリティをエンハンスし、あらゆる問題に対するミッションクリティカルなサポートを提供しつつも膨大な環境をモニタリングしています。我々はともに新機能のプランニングとAzureでのリリースを行なっています。例えば、我々は最近初めてAzureで、新たなPhotonエンジンのエクスクルーシブなパブリックプレビューをホストしました。このコラボレーションはすでに4年続いており、特にAzure上で本当にうまくDatabricksが動作するようにするために、数十万もの時間が注ぎ込まれています!
全体像
サービスやテクノロジーの仕様の枠を超えて、特筆すべきいくつかの信条があります。最初に、ベストな基盤としてクラウドストレージ上のデータレイクの一つの場所にデータを置きましょう。二つ目、あらゆるユースケースに取り組むためにエコシステムの分析サービスに対してデータをオープンかつアクセス可能にしましょう。常に起こることですが、新機能や新サービスを見据えて必要なデータを提供し続けられるように、アーキテクチャは柔軟かつ将来に渡って保証されるものにしましょう。Databricksとマイクロソフトはこれらの信条に従い、Azureのお客様にシンプルかつ効果的な分析プラットフォームを提供するために、定常的にAzureにおける分析のイノベーションを起こし続けることで、いかなる企業にとってAzureを欠かせないプラットフォームにしようと数年間協働しています!