Databricks Answers Top Questions About Lakehouse and SQL Analytics - The Databricks Blogの翻訳です。
最近我々は、レイクハウスアーキテクチャのビジョンと、どのようにDatabricksがお客様を支援するのかを説明する、CEO Ali Ghodsiをフィーチャリングしたバーチャルイベントを開催しました。レイクハウスは、クラウドのデータレイクで使われる低コスト、柔軟性のあるストレージの上に、データウェアハウスと同等のデータ構造、データ管理機能を実装するデータプラットフォームアーキテクチャです。この新たなシンプル化されたアーキテクチャによって、従来型の分析、データサイエンス、機械学習が同一のプラットフォームが存在することになり、データのサイロ化を排除し、企業において信頼できる唯一の情報源を実現します。
このイベントでは、レイクハウスの考え方と、どのように実装されているのかを説明し、データ基盤の構成を転換させたお客様をハイライトし、レイクハウスのビジョンを完成させる新たなSQL Analytcis(現Databricks SQL)サービスをデモしました。しかし、最もエキサイティングだったのは、参加者の皆様からの信じられないほどのエンゲージメントでした。ここでは、我々が受け取った数百の興味深い質問をシェアしたいと思います。イベントに参加できなかった皆様においては、こちらからオンデマンドでイベントを視聴することができます。
バーチャルイベントにおけるQ&A
Delta Lakeとは何で、レイクハウスにおいてどのような役割ですか?
Delta Lakeは、お使いのデータレイクに信頼性、セキュリティ、パフォーマンスをもたらすオープンフォーマットのストレージレイヤーであり、ストリーミング処理、バッチ処理の両方に対応しています。Delta Lakeは、分析をシンプルにし、企業全体でデータにアクセスできるようにするために、構造化、準構造化、非構造化データに対する単一の場所を提供することでデータのサイロ化を排除します。最終的には、Delta Lakeはコスト効率の良い、高度にスケーラブルなレイクハウスアーキテクチャの基盤かつイネーブラとなります。
なぜDelta Lakeと呼ばれるのですか?
Delta Lakeと名付けた理由は二つあります。最初の理由は、Delta Lakeはデータに対する、変更あるいはdelta(差分)を追跡し続けます。第二の理由は、Delta Lakeはお使いのデータレイクに流れ込むデータをフィルタリングする「デルタ(三角州)」として動作するからです。
DatabricksでDelta Lakeテーブルを作成して、オープンソースのSparkでアクセスできますか?
はい、それを行うためには、オープンソースのSparkとDelta Lakeをインストールします。DatabricksのDelta Lakeは、Databricksでのみ利用できるDeltaエンジンによって、オープンソースのDelta Lakeより高速なものとなっています。詳細はこちらの記事を参照ください。
Delta Lakeのファイルフォーマットは何ですか?
Delta Lakeで使用されるファイルフォーマットは、parquetとJSONの組み合わせであるdeltaと呼ばれるものです。
Delta Lakeのテーブルは、テーブルのコンテンツとトランザクションログ(およびチェックポイント)のデータオブジェクトを保持するクラウドオブジェクトストア、あるいはファイルシステム上のディレクトリです。詳細はこちらをご覧ください。
参考情報
- Delta Lakeにダイビング:トランザクションログを読み解く - Qiita
- Databricks Delta Lake: リアルタイムビッグデータ処理のための統合データ管理システム - Qiita
- データレイクをDelta Lakeに移行すべき5つの理由 - Qiita
- Databricks Deltaを使って秒でペタバイトデータを処理する - Qiita
SQL Analytics(現Databricks SQL)とは何ですか?
Databricks SQLは、データレイク上のDelta Lakeテーブルにクエリーを実行できる、馴染みのあるSQLベースの環境を使用する、データアナリスト専用の新たなワークスペースです。Databricks SQLは完全に独立したワークスペースなので、データアナリストはノートブックベースのデータサイエンスツール(実際、データサイエンティストはSQLエディタで作業することも好みますが)に悩まされることなしに、Databricksのプラットフォームで直接作業することができます。しかし、データアナリストとデータサイエンティストは同じデータソースで作業をするので、全体的なインフラストラクチャは非常に簡素化され、信頼できる唯一の情報源を維持することができます。
Databricks SQLで以下のことが可能となります:
- データレイク上の完全かつ最新なデータに対してクエリーが行えるように、お使いのTableau、Microsoft Power BIのようなBIツールとの統合
- Databricksでデータアナリスト、データサイエンティストが直接データレイクにクエリーできるようにするための、既存のBIツールを補完するSQLネイティブのインタフェース
- データにおける重要な変化に関するアラート、豊富なビジュアライゼーションとドラッグ&ドロップによるダッシュボードを通じたクエリーの共有
- 最新かつ完全なデータを用いた従来の分析ワークロードをサポートするために、お使いのデータレイクに高信頼、高品質、スケーラビリティ、セキュリティ、パフォーマンスを提供
Delta LakeにおけるSQLパフォーマンスの詳細はどこで学べますか?
Databricks SQL、Delta、そして(パフォーマンスを含む)レイクハウスアーキテクチャを学ぶためには、こちらの無料のトレーニングをチェックしてください。トレーニングでは、データ管理の進化とレイクハウスを学びます。このモデルを用いることで、どのようにして、信頼できる唯一の情報源に支えられた、高性能のストリーミング、データサイエンス、機械学習、BIが統合されたシステムをデータチームが活用できるのかを説明します。
このセッションのハンズオンでは、統合されたSQLエディタ、ダッシュボードツールであるDatabricks SQLを活用できるのかを学びます。お客様の会社のデータに対してどれだけ容易にクエリーを実行できるのか、ダッシュボードを構築できるのかを探索します。そして、Databricks SQLが、レイクハウスインフラストラクチャにおいて、どのようにデータが使用され、アクセスされたのかに関して、きめ細かい可視性を提供するのかを理解することができます。
SQL Analytics(現Databricks SQL)は利用できますか?
Databricks SQLはパブリックプレビューで利用できます。利用される際にはDatabricks担当にお問い合わせください。
これはイベントで頂いた素晴らしいエンゲージメントのほんの一部です。参加いただいたこと、レイクハウスアーキテクチャをビジョンから現実に移行することを支援いただいたことを感謝します。イベントをまだ体験されていないのでしたら、是非こちらからオンデマンドで視聴いただければと思います。