Databricks SQL highlights From Data & AI Summit - The Databricks Blogの翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
ベストなデータウェアハウスはレイクハウスです
データウェアハウスは現代世界についていけていません:SQL以外の言語の普及、非構造化データ、機械学習、IoTとストリーミング分析によって、お客さまは分岐するアーキテクチャを実装する必要に迫られました:BIのためのデータウェアハウスとMLのためのデータレイクです。SQLは様々の場所で活用され、数百万のプロフェッショナルによって知られているものですが、データレイクハウスが誕生するまでは、データレイクにおいて一級市民として取り扱われたことはありませんでした。
お客様がレイクハウスアーキテクチャを導入するにつれて、Databricks SQL(DBSQL)がデータウェアハウスの機能と、Databricksレイクハウスプラットフォームにおける一級市民としてのSQLサポートを提供しており、データレイクとデータウェアハウスの長所を共に提供しています。世界中で既に数千のお客様がDBSQLを導入しており、Data + AI Summitにおいて我々はレイクハウスにおける分析を再定義し続けるために、データ変換・取り込み、接続性、クラシックなデータウェアハウスに関する数多くのイノベーションを発表しました。以降でハイライトを見ていきましょう。
すぐに起動するDatabricks SQLのサーバレスコンピュート
最初に、我々はDatabricks SQL(DBSQL)のサーバレスコンピュートのAWSでのパブリックプレビューを発表しました!もはや、すべてのアナリストや分析エンジニアは、背後のインフラストラクチャを心配することなしに、完全かつ最新のデータを取り込み、変換し、クエリーできるようになります。
ストレージと分離された、即時起動かつ弾力性のあるサーバレスコンピュートによる、標準的なSQLを用いた完全かつ最新データの取り込み、変換、クエリー
Databricks SQL向けGo、Node.js、Python、CLIコネクターのオープンソース化
多くのお客様が、レイクハウスによって強化されるカスタムデータアプリケーションを構築するためにDatabricks SQLを活用しています。このため、任意のアプリケーションからDatabricks SQLへの接続をよりシンプルにするために、Go、Node.js、Pythonのオープンソースコネクターのラインアップ、そして、新たなCLIを発表しました。次に何を開発すべきかのフィードバックについては、GitHub、あるいはDatabricks Communityでコンタクトしてください!
どこからでも接続し、お使いのレイクハウスで強化されるデータアプリケーションを構築するためのDatabricks SQLコネクター
Python UDF
これまでとは違う方法でデータサイエンティストとデータアナリストが協力できるように、Python UDFを用いることで、お好きなSQL環境にPythonのパワーを持ち込むことができます!今では、アナリストはPython関数を活用することができ、Databricks SQL上で直接SQL文からデータサイエンティストが既に開発した複雑な変換処理や機械学習モデルをシームレスに使用できるようになります。Python UDFはプライベートプレビューです。今後のアップデートを楽しみにしていてください。
CREATE FUNCTION redact(a STRING)
RETURNS STRING
LANGUAGE PYTHON
AS $$
import json
keys = ["email", "phone"]
obj = json.loads(a)
for k in obj:
if k in keys:
obj[k] = "REDACTED"
return json.dumps(obj)
$$;
クエリーフェデレーション
レイクハウスはすべてのデータソースのホームです。クエリーフェデレーションを用いることで、アナリストは最初にソースシステムからデータを抽出、ロードすることなしに、レイクハウスの外に格納されているデータに直接クエリーを行えるようになります。もちろん、同じクエリーの中でPostgreSQLのようなデータソースとDeltaを透過的に組み合わせることも可能です。
CREATE EXTERNAL TABLE
taxi_trips.taxi_transactions
USING postgresql OPTIONS
(
dbtable ‘taxi_trips’,
host secret(“postgresdb”,”host”),
port ‘5432’,
database secret(“postgresdb”,”db”),
user secret(postgresdb”,”username”),
password secret(“postgresdb”,”password”)
);
マテリアライズドビュー
マテリアライズドビュー(MV)は、効率的かつインクリメンタルな計算処理によってエンドユーザーのクエリーを高速化し、インフラストラクチャのコストを削減します。MVはDelta Live Tables (DLT)の上で開発されており、事前計算を行わない場合には時間を要し、かつ頻繁に使用される計算処理を事前に実行することでレーテンシーを削減します。
事前計算済みの結果を用いたクエリーの高速化
制約によるデータモデリング
みなさんが好きなデータウェアハウスの制約(constraint)がレイクハウスにやってきます!主キーと外部キー制約は、アナリストにレイクハウス上での高度なデータモデリングに使える便利なツールキットを提供します。DBSQLとBIツールはクエリー計画の改善のために、このメタデータを活用することができます。
- 主キーと外部キーの制約は、明確にテーブル間の関係性を説明します。
- IDENTITYカラムは、新規レコードが追加されると自動でユニークな整数値を生成します。
- データ品質と問題の修正に心配しなくて済むように、強化されたCHECK制約を強制します。
主キー、外部キー制約によるテーブル間のリレーションシップの理解
次のステップ
Data + AI Summit 2022の発表、アップデートに関して会話が行われているDatabricks Communityの会話に参加してみましょう。そして、使い始めるためには https://databricks.com/jp/product/databricks-sql を訪れてみてください。
Data+AI Summit 2022における関連セッションをオンデマンドで参照することができます。
一覧は原文をご覧ください
より詳細は
- オンデマンドでData + AI Summit 2022のセッションを視聴: https://databricks.com/dataaisummit/
- Databricks SQL向けGo、Node.js、Python、CLIオープンソースコネクターの発表: https://qiita.com/taka_yayoi/items/ea08adb714c674b7aa98
- サーバレスの発表: https://databricks.com/blog/2021/08/30/announcing-databricks-serverless-sql.html