New Performance Improvements in Databricks SQL - The Databricks Blogの翻訳です。
Data + AIサミット2020ヨーロッパで発表されたDatabricks SQLは、データレイクの経済性でデータウェアハウスのパフォーマンスを提供するマルチクラウドレイクハウスアーキテクチャを実現します。我々のビジョンは、データアナリストが目的に特化したSQL UIと人気のBIツールに対する世界クラスのサポートを用いて、レイクハウスから洞察を得て、共有できるように、シンプルかつ使い心地の良いツールを提供するというものです。
この記事は、このビジョン(パフォーマンス、使いやすさ、ガバナンス)を達成するために定期的にもたらしているイノベーションをカバーすることを目的とした一連のブログシリーズの最初の記事です。この記事では、Databricks SQLの一部として行われた最新のパフォーマンス最適化を説明します。
- 同時実行性の高い分析ワークロード
- インテリジェントなワークロード管理
- 並列性の高い読み込み
- Cloud Fetchによるビジネスインテリジェンス(BI)結果取得の改善
大規模クエリーの先にある現実世界のパフォーマンス
Databricks SQLの最初のリリースにおいては、劇的なパフォーマンスのメリットから提供をスタートしました。以下に示すように、30TBのTPC-DSにおいて従来のクラウドデータウェアハウスと比較して、最大6倍のコストパフォーマンスを示しました。TPC-DSはデータウェアハウスベンダーによってい定義された業界標準のベンチマークなので、我々はこの結果に非常に誇りを持ちました。
30TB TPC-DSコストパフォーマンス(低いほど優れています)
このベンチマークは、ETLワークロードや深い分析ワークロードのような大規模クエリーを良くシミュレートしたものですが、我々のお客様が実行しているものをカバーしていません。だからこそ、我々は現実世界のワークロード、SQLデータクエリーに対して高速かつ予測可能なパフォーマンスを提供するために、この数ヶ月間お客様と密接に作業してきました。
本日プレビューを正式に公開することで、これまでに我々が達成したパフォーマンス改善の結果を共有できることを非常に嬉しく思っています。
シナリオ1: 同時実行性の高い分析ワークロード
お客様と作業する中で、我々は小規模のデータセットに対して同時実行性の高い分析ワークロードが行われることが一般的であることに気づきました。直感的にこれは納得できることです。アナリストは通常過去のデータよりもより最新のデータにフィルタリングを適用し、作業をする傾向があります。我々は、この一般的なユースケースをより高速にすべきと決断しました。同時実行性を最適化するために、より小規模のスケールファクター(10GB)と32の同時実行ストリームで同じTPC-DSベンチマークを用いました。ここでは、ボットはクエリーの間で休まないので、よりリアルな大規模ユーザーをシミュレートして、システムに継続的にクエリーを送信する32のボットを用いました。
ボトルネックを特定し除外するために結果を分析し、このプロセスを複数回繰り返しました。数百の最適化を行うことで、同時実行性を3倍改善しました!今やDatabricks SQLは、大規模クエリー、多くのユーザーによる小規模クエリー両方に対して、ベストなクラウドデータウェアハウスのいくつかの性能を上回ることができました。
32同時実行ストリームにおける10GBのTPC-DSの時間当たりクエリー数(高いほど優れています)
シナリオ2: インテリジェントなワークロード管理
しかし、現実世界のワークロードは大規模か小規模なクエリーかという話だけではありません。多くの場合、大規模、小規模なクエリーが混じり合っています。このため、Databricks SQLにおいては、キューイング、ロードバランシングの機能も必要となります。多くのお客様においては、大規模クエリーよりも小規模クエリーのレーテンシーを気にするため、Databricks SQLは大規模クエリーよりも小規模の優先度を上げるデュアルキューイングシステムを使用しています。
デュアルキューによる混成クエリーのキューイング、ロードバランス
シナリオ3: 並列性の高い読み込み
データが連続的に到着するIoTデータ取り込みのようなストリーミングシナリオにおいて、レイクハウスのいくつかのテーブルが数多くのファイルから構成されることは一般的なことです。レガシーシステムにおいては、実行エンジンがクエリーを実行するよりもこれらのファイルの一覧を取得するのにより多くの時間を要することがあります!また、我々のお客様はデータの新鮮にするために性能を犠牲にしたくないと話をされました。
Databricks SQLにおいて非同期かつ並列性の高いIOを導入できたことを我々は誇りに思っています。クエリーを実行する際、Databricksは現在のブロックを処理している間に、クラウドストレージから次のブロックのデータを自動で読み込みます。これは、小規模ファイル(1MBファイルに対して12倍の性能)や「コールドデータ(キャッシュされていないデータ)」ユースケースに対するクエリー性能を劇的に改善します。
小規模ファイルに対する高並列性の読み込み(秒当たりスキャンされる行数)(高いほど優れています)
シナリオ4: Cloud FetchによるBI結果取得の改善
クエリー結果が計算された後の最後のマイルは、システムがPowerBIやTableauのようなクライアントにデリバリーするスピードを改善することです。レガシーなクラウドデータウェハウスは、多くの場合リーダーノード(ドライバーノード)に結果を集め、クライアントに結果を返却します。これは、数メガバイト以上の結果を取り込んでいる際、BIツールにおけるエクスペリエンスを大きくスローダウンさせます。
このため、我々はCloud Fetchと呼ばれる新たなアーキテクチャによるアプローチを検討しました。大規模な結果に対しては、Databricks SQLは全ての計算ノードで並列にクラウドストレージに書き込み、クライアントに対して事前サイン済みのURLを用いてファイルのリストを送信します。クライアントはデータをクラウドストレージから並列でダウンロードすることができます。我々は、現実世界のお客様のシナリオにおいて、10倍もの性能改善を報告できることを嬉しく思います!この機能を自動で有効化するために、最も人気のあるBIツールとともに作業しています。
Databricks SQLの内部
これらは、我々がオープンなアプローチを維持しつつ、お使いのデータレイクにベストクラスのSQLパフォーマンスを提供するために、Databricks SQLにもたらした性能改善およびイノベーションのほんの一例です。
Databricks SQLの内部
オープンソースのDelta LakeはDatabricks SQLの基盤となっています。これは、データレイクに対して、ACIDトランザクション、データリネージュ、バージョン管理、データ共有などデータウェアハウスのメリットをもたらすオープンストレージフォーマットです。
Databricks SQLのコアは、SQLワークロードを高速に実行するために開発されたDatabricks上の新たなネイティブベクトル化エンジンであるPhotonです。詳細に関しては、こちらのブログ記事、あるいはRadical Speed for SQL Queries on Databricks: Photon Under the Hoodをご覧ください。
そして、最後になりますが、我々は、データチーム、アナリスト、データサイエンティスト、SQL開発者がDatabricks SQLでお使いのツールを容易に活用できるように、数々のソフトウェアベンダーと協働してきています。これまでに説明した同時実効性の高い短時間のクエリー性能をブーストしつつも、シングルサインオンを用いて認証を行い、容易に接続してデータを取り出せるようにしました。
次のステップ
これは始まりに過ぎません。我々はヒアリングを行い、サービスに対してさらにイノベーションを追加していく予定です。すでに、Databricks SQLはAtlassianやComcastのような数多くのお客様に数多くの価値を提供しております。皆様からのフィードバックも心待ちにしています!
すでにDatabricksをお使いのユーザーであれば、スタートガイド(Azure Databricks/AWS)を参考に、すぐにDatabricks SQLを利用いただけます。まだ、Databricksをお使いでないのであれば、Databricks 無料トライアルからフリートライアルをスタートしてみてください。
最後に、Databricksのレイクハウスプラットフォームをより学びたいのであれば、我々のウェビナーData Management, the good, the bad, the uglyをご覧ください。さらに、ハンズオンで体験いただけるように、我々はDatabricks SQLのオンライントレーニングを提供しています。詳細はDatabricks担当にお問い合わせください。どのようにDatabricks SQLを活用したいのか、データレイクにおけるBI、データ分析をどのようにシンプルにできるのかを是非聞かせていただければと思います。