本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
すべてにデータユースケースで安価かつ尋常じゃないスピードを手に入れましょう
主要クラウドプラットフォームのDatabricksにおいて、レイクハウスシステムの高速次世代クエリーエンジンであるPhotonが正式提供(GA)になったことを発表できて嬉しく思っています。Apache Spark™のオリジナルクリエーターによって最初から開発され、モダンなSparkワークロードと完全な互換性があるPhotonは、すべてのデータユースケースにおけるクラウドハードウェアのTCOを削減し、高速なパフォーマンスを提供します。
2年前のローンチ以来、Photonはエクサバイト規模のデータを処理し、数十億のクエリーを実行し、従来のクラウドデータウェアハウスと比較して12倍のコストパフォーマンスを示すベンチマークを叩き出し、権威のある賞を受賞しました。
Photonは当初、皆様の既存のデータレイクにおいてデータウェアハウスの作業を行えるようにSQLにフォーカスしていましたが、モダンなデータフレームとSparkSQLのワークロードをサポートできるように、言語(Python、Scala、Java、R)とワークロード(データエンジニアリング、分析、データサイエンス)のカバレッジを拡大しました。
この結果、AT&Tのようなお客さまは、Databricks SQLウェアハウス以外の場所、従来のDatabricksワークスペースでのデータ取り込み、ETL、ストリーミング、インタラクティブなクエリーにおいても、Photonを用いることによって劇的なコスト節約と性能改善を体験されています。
- 従来のDatabricksランタイムでPhotonを用いることで最大80%(平均30%)のTCOコストの削減、VMの計算時間で最大85%(平均50%)の削減。
- Delta Live TablesでPhotonを用いることで、⅕の計算資源でレーテンシーを最大5倍削減。
- インタラクティブなSQLワークロードで3-8倍高速なクエリーを実現。
さらに、プレビューをされている400のお客様に調査をしたところ、90%がワークスペースでクエリーが速くなった、87%がパフォーマンス改善によってより多くの作業を行えるようになり、迅速にビジネス価値を生み出すためにイテレーションが行えるようになったと報告しています。
DatabricksレイクハウスでPhotonを用いることで尋常じゃないスピードを
PhotonのGAで提供される新機能
PhotonのGAでは数多くの素晴らしい機能が提供されますが、以下の機能を強調したいと思います。
- 高速かつ頑健なソート: Photonのvectorized sortを用いることで、お客さまはプレビュー期間中にApache Spark™よりもはるかに高速な3-20倍の性能改善を目撃しています。
- 高速化されたウィンドウ関数: 集計、移動平均、データの複製のようなユースケースでテーブル行セットに処理を行う関数は、プレビュー期間中に2-3倍高速になったという報告がありました。
- 高速化された構造化ストリーミング: 今ではPhotonは構造化ストリーミングのワークロードもサポートしています。プレビュー期間中、ストリーミングジョブを行なっているお客様からは、コストを5倍削減できたとの報告がありました。
使ってみる
Photonを使い始めるにはドキュメントの指示に従ってください。また、詳細に関してはData + AI Summitのセッションを視聴してみてください!