More than 1 year has passed since last update.

Databricksの特徴とアカウント開設の手順を整理した

Last updated at 2023-07-27Posted at 2023-07-26

背景・目的

Databricksについて調べる機会がありましたので、特徴を整理しアカウントを作成するまでを記載します。
なお、本記事はDatabricksのドキュメントを翻訳し、簡単に整理したものになります。

まとめ

レイクハウスプラットフォームには下記の特徴があります。
- 統合
  - 単一プラットフォームで分析とAIに対応
- オープン
  - 他のツールと統合が容易
  - プラットフォームに依存しないセキュアなデータ共有が可能
- スケーラビリティ
  - シンプルなデータパイプライン〜大規模LLMまであらゆるワークフローに対応
- データ管理とエンジニアリング
  - 自動化された信頼性の高いETL
  - オープンでセキュアなデータ共有
  - 超高速性能
  - 構造化/非構造/半構造をデータレイクに格納
- データウェアハウス
  - Databricks SQL
  - 従来のクラウド型のDWHの性能と比較して最大の12倍の価格性能
  - 最新で完全なデータへの容易なアクセス
- データサイエンスと機械学習
  - レイクハウスを基盤として構築
  - 機械学習の完全なライフサイクルをサポート
- データガバナンス
  - 構造化、非構造化データに対する単一のデータガバナンスモデル
  - 全体像を把握可能
  - 自動リネージ機能
  - 監視機能
- データ共有
  - 厳格なセキュリティとガバナンスを維持しながら、下記を共有できる
    - ライブデータセット
    - モデル
    - ダッシュボード
    - ノートブック
Databricksを始めるには下記の方法があります。
- Databricks platform
  - Free Trial １４日間がついてきます。
- Community Edition
  - いくつかの制限付きですが、無料
Databricks platformには、下記の3つがあり機能やコストの差異あります。
- standard
- premium
- enterprise

概要

Databricksのページを元に簡単に整理します。

Delta Lake

What is Delta Lake?

Delta Lake は、ストリーミングおよびバッチ操作をサポート
トランザクション、分析、AI のユースケース向けにすべてのデータタイプを統合
パフォーマンスを提供に優れ、コスト効率が高く拡張性の高いレイクハウスの基盤

※出典：https://www.databricks.com/product/delta-lake-on-databricks

Open and vast ecosystem

Delta Lake Universal Format (UniForm) を使用し、Iceberg または Hudi クライアントを使用して、Unity Catalog エンドポイントを通じて Delta テーブルを読み取ることができる。
Delta Lake 3.0 はコネクタエコシステムを簡素化する。
Delta カーネルは安定したライブラリ API を提供するため、コネクタはコードを変更せずに新しい Delta 機能を簡単に組み込める。

Lightning-fast performance

Delta Lake on Databricks は、他のストレージ形式よりも最大 1.7 倍高速にデータのロードとクエリを実行することで、大規模なスケールと速度を実現する。

※出典：https://www.databricks.com/product/delta-lake-on-databricks

AI-driven for best price/performance

Unity Catalog と Photon を備えた Delta Lake は、手動調整なしですぐに最高の価格/パフォーマンスを提供する。
Databricks Lakehouse は AI モデルを使用してデータストレージに関する一般的な課題を解決するため、時間の経過とともにテーブルが変化しても手動でテーブルを管理する必要がなく、より高速なパフォーマンスが得られる。
更新の予測 I/O は、クエリプランとデータレイアウトを最適化してピークパフォーマンスを実現し、読み取りパフォーマンスと書き込みパフォーマンスのバランスをインテリジェントに実現。
Copy on Write とMerge on Read のような戦略のどちらを選択するかを決める必要がなく、データからより多くの情報を取得できる。
Liquid clusteringは、適切に調整され、適切にパーティション化されたテーブルのパフォーマンスを実現する。その結果、最小限の構成で超高速で適切にクラスター化されたテーブルが作成される。
予測最適化は、最高のパフォーマンスと価格を実現するためにデータを自動的に最適化する。データ使用パターンから学習し、適切な最適化を実行するための計画を構築し、高度に最適化されたサーバーレスインフラストラクチャ上でそれらの最適化を実行する。

Open and secure data sharing

Delta Sharing は、安全なデータ共有のための業界初のオープンプロトコル
- データがどこに存在するかに関係なく、他の組織と簡単にデータを共有できる。
- Unity カタログとのネイティブ統合により、組織全体で共有データを一元管理および監査できる。
- これにより、セキュリティとコンプライアンスのニーズを満たしながら、ビジネスをより適切に調整するためにサプライヤーやパートナーとデータ資産を共有できる。
主要なツールやプラットフォームとの統合により、選択したツールから共有データを視覚化、クエリ、強化、管理することができる。

Automated and trusted data engineering

Delta Live Tables を使用してデータエンジニアリングを簡素化する。
- Delta Lake 上の新鮮で高品質なデータのデータパイプラインを構築および管理する簡単な方法。
- 宣言型パイプライン開発による ETL 開発と管理の簡素化、データの信頼性の向上、およびレイクハウス基盤の構築を支援するクラウドスケールの本番運用により、データエンジニアリングチームを支援する。

※出典：https://www.databricks.com/product/delta-lake-on-databricks

Security and governance at scale

Delta Lake は、データガバナンスのためのきめ細かいアクセス制御を可能にすることでリスクを軽減する。
- データレイク内のデータを迅速かつ正確に更新して GDPR などの規制に準拠し、監査ログを通じてより優れたデータガバナンスを維持できる。
- レイクハウスの最初のマルチクラウドデータカタログである Unity カタログの一部として Databricks にネイティブに統合され、強化されている。

Unity Catalog

Databricks Unity Catalog は、レイクハウス上のデータと AI のための業界初の統合ガバナンスソリューションです。
Unity Catalog を使用すると、組織はあらゆるクラウドプラットフォームの下記をシームレスに管理できる。

構造化データ
非構造化データ
機械学習モデル
ノートブック
ダッシュボード
ファイル

データサイエンティスト、アナリスト、エンジニアは Unity Catalog を使用して、信頼できるデータと AI 資産を安全に検出、アクセス、共同作業することができます。
AI を活用して生産性を向上させこのガバナンスへの統一アプローチにより、データと AI への取り組みが加速され、同時に規制遵守も簡素化された方法で確保されます。

Unified visibility into data and AI

あらゆるクラウド上の構造化データと非構造化データ、ML モデル、ノートブック、ダッシュボード、および任意のファイルを検出して分類する。
下記のプラットフォーム等からのデータを一箇所に統合、マッピング、クエリする
- MySQL
- PostgreSQL
- Amazon Redshift
- Snowflake
- Azure SQL
- Azure Synapse
- Google の BigQuery
データ探索のための単一アクセスポイントにより、データと AI の取り組みを加速する。
自然言語を使用してデータと AI から安全に検索、理解、洞察を抽出することで、生産性を向上させる。

※出典：https://www.databricks.com/product/unity-catalog

Single permission model for data and AI

統合されたインターフェイスによりアクセス管理を簡素化し、データおよび AI 資産に対するアクセスポリシーを定義し、これらのポリシーをクラウドやデータプラットフォームに一貫して適用および監査する。
オープンインターフェイスを使用して他のコンピューティングプラットフォームからデータに安全にアクセスし、一貫した権限を 1 か所で管理する。
行と列をきめ細かく制御してセキュリティを強化しながら、シームレスに拡張できるローコードの属性ベースのアクセスポリシーを通じてアクセスを効率的に管理する。

AI-powered monitoring and observability

AI の力を利用してモニタリングを自動化し、エラーを診断し、データと ML モデルの品質を維持する。
個人識別情報 (PII) データを自動的に検出し、モデルのドリフトを追跡し、データと AI パイプライン内の問題を効果的に解決して精度と整合性を維持するプロアクティブなアラートのメリットを活用する。
自動化された列レベルのデータ系統により、デバッグ、根本原因分析、影響評価を合理化する。
請求、監査、リネージュなどの組み込みシステムテーブルを利用したオペレーショナルインテリジェンスにより、データと AI に対する包括的なレイクハウスの可観測性を獲得する。

※出典：https://www.databricks.com/product/unity-catalog

Open data sharing

Unity Catalog 内にネイティブに統合されたオープンソースデルタシェアリングを使用して、クラウド、リージョン、プラットフォーム間でデータと AI アセットを簡単に共有する。
独自のフォーマット、複雑な ETL プロセス、コストのかかるデータレプリケーションに依存することなく、どこでも誰とでも安全にコラボレーションして、新しい収益源を開拓し、ビジネス価値を推進する。

※出典：https://www.databricks.com/product/unity-catalog

Data Engineering

Databricks Lakehouse プラットフォームでバッチデータとストリーミングデータを簡単に取り込んで変換します。 Databricks が大規模なインフラストラクチャを自動的に管理しながら、信頼性の高い運用ワークフローを調整します。組み込みのデータ品質テストとソフトウェア開発のベストプラクティスのサポートにより、チームの生産性が向上する。

Simplified data ingestion

データを Lakehouse プラットフォームに取り込み、分析、AI、ストリーミングアプリケーションを 1 か所から強化する。
Auto Loader は、状態情報を管理することなく、スケジュールされたジョブまたは継続的なジョブで、クラウドストレージに配置されたファイルを増分的かつ自動的に処理する。
新しいファイル (数十億個まで) をディレクトリにリストすることなく効率的に追跡し、ソースデータからスキーマを自動的に推測し、時間の経過とともに変化するように展開することもできる。
COPY INTO コマンドを使用すると、アナリストは SQL 経由で Delta Lake へのバッチファイルの取り込みを簡単に実行できる。

Automated ETL processing

生データを取り込んだ後は、分析や AI に使用できるように変換する必要がある。Databricks は、Delta Live Tables (DLT) を使用して、データエンジニア、データサイエンティスト、アナリストに強力な ETL 機能を提供する。
DLT は、シンプルな宣言的アプローチを使用してバッチデータまたはストリーミングデータに ETL および ML パイプラインを構築すると同時に、インフラストラクチャ管理、タスクオーケストレーション、エラー処理と回復、パフォーマンスの最適化などの運用の複雑さを自動化する最初のフレームワークを指す。
DLT を使用すると、エンジニアはデータをコードとして扱い、テスト、監視、文書化などのソフトウェアエンジニアリングのベストプラクティスを適用して、信頼性の高いパイプラインを大規模に展開することもできる。

※出典：https://www.databricks.com/solutions/data-engineering

Reliable workflow orchestration

Databricks Workflows は、Lakehouse プラットフォームにネイティブな、すべてのデータ、分析、AI のためのフルマネージドオーケストレーションサービス。
SQL、Spark、ノートブック、dbt、ML モデルなどのデルタライブテーブルとジョブを含む、ライフサイクル全体にわたって多様なワークロードを調整する。
基盤となる Lakehouse プラットフォームとの緊密な統合により、あらゆるクラウド上で信頼性の高い本番ワークロードを作成して実行できると同時に、エンドユーザーに簡単に詳細な集中監視を提供できる。

End-to-end observability and monitoring

Lakehouse プラットフォームは、データと AI のライフサイクル全体にわたる可視性を提供するため、データエンジニアと運用チームは実稼働ワークフローの健全性をリアルタイムで確認し、データ品質を管理し、過去の傾向を理解することができる。
Databricks ワークフローでは、本番ジョブとデルタライブテーブルパイプラインの健全性とパフォーマンスを追跡するデータフローグラフとダッシュボードにアクセスできます。イベントログは Delta Lake テーブルとしても公開されるため、パフォーマンス、データ品質、信頼性のメトリクスをあらゆる角度から監視および視覚化できます。

Next-generation data processing engine

Databricks データエンジニアリングは、Apache Spark API と互換性のある次世代エンジンである Photon を利用している。
数千ノードまで自動的に拡張しながら記録破りの価格/パフォーマンスを実現する。
Spark Structured Streaming は、バッチおよびストリーム処理用の単一の統合 API を提供し、コードを変更したり新しいスキルを学習したりすることなく、レイクハウスでストリーミングを簡単に導入できる。

State-of-the art data governance, reliability and performance

Databricks でのデータエンジニアリングは、Lakehouse プラットフォームの基本コンポーネントである Unity Catalog と Delta Lake の恩恵を受けることを意味する。
生データは、ACID トランザクションによる信頼性と超高速パフォーマンスによるスケーラブルなメタデータ処理を提供するオープンソースストレージ形式である Delta Lake で最適化される。
これを Unity Catalog と組み合わせることで、すべてのデータと AI 資産に対してきめ細かいガバナンスが提供され、クラウド全体でデータを検出、アクセス、共有するための 1 つの一貫したモデルによって管理方法が簡素化される。
Unity Catalog は、他の組織とのシンプルかつ安全なデータ共有のための業界初のオープンプロトコルであるDelta Sharingのネイティブサポートも提供する。

Data Streaming

Databricks Lakehouse プラットフォームは、データストリーミングを大幅に簡素化し、リアルタイム分析、機械学習、アプリケーションを 1 つのプラットフォーム上で提供します。
データチームがすでに知っている言語とツールを使用してストリーミングデータワークロードを構築できるようにします。リアルタイムデータワークロードの構築と維持に関連する運用面を自動化することで、開発と運用を簡素化します。
ストリーミングデータとバッチデータ用の単一プラットフォームでデータサイロを排除します。

Streaming data ingestion and transformation

Delta live tableを使用して、ストリーミングデータパイプラインのデータインジェストと ETLを簡素化する。
シンプルな宣言型アプローチをデータエンジニアリングに活用することで、SQL や Python など、チームがすでに知っている言語やツールを使用できるようになる。
制御可能で自動化された更新設定を使用して、バッチデータパイプラインとストリーミングデータパイプラインを 1 か所で構築して実行し、時間を節約し、運用の複雑さを軽減する。
データをどこに送信する予定であっても、Databricks Lakehouse プラットフォーム上にストリーミングデータパイプラインを構築すると、生のデータとクリーンなデータの間で時間をロスすることがなくなる。

Real-time analytics, ML and applications

ストリーミングデータを使用すると、分析と AI の精度と実用性がすぐに向上する。

Automated operational tooling

ストリーミングデータパイプラインを構築してデプロイすると、Databricks は運用に必要な複雑な運用タスクの多くを自動化する。これには、基盤となるインフラストラクチャの自動スケーリング、パイプラインの依存関係の調整、エラー処理と回復、パフォーマンスの最適化などが含まれる。
強化された自動スケーリングは、固有のワークロードごとにコンピューティングリソースを自動的に割り当てることで、クラスターの使用率を最適化する。これらの機能と自動データ品質テストおよび例外管理により、運用ツールの構築と保守に費やす時間が短縮され、データから価値を引き出すことに集中できる。

Next-generation stream processing engine

Spark Structured Streaming は、Databricks Lakehouse プラットフォームでのデータストリーミングを可能にするコアテクノロジであり、バッチ処理とストリーム処理のための統合 API を提供する。
Databricks Lakehouse プラットフォームは、99.95% の稼働率という実績のあるマネージドサービスを使用して Apache Spark ワークロードを実行するのに最適な場所。
Spark ワークロードは、Apache Spark API と互換性のある次世代レイクハウスエンジンである Photon によってさらに高速化され、コストあたりの記録を破るパフォーマンスを実現しながら、数千ノードまで自動的に拡張できます。

Unified governance and storage

Databricks でのデータストリーミングは、Lakehouse プラットフォームの基本コンポーネントである Unity Catalog と Delta Lake の恩恵を受けることを意味する。
生データは、ストリーミングデータとバッチデータの両方のためにゼロから設計された唯一のオープンソースストレージフレームワークである Delta Lake で最適化される。
Unity Catalog は、クラウド全体でデータを検出、アクセス、共有するための 1 つの一貫したモデルを使用して、すべてのデータと AI 資産に対してきめ細かい統合ガバナンスを提供する。
Unity Catalog は、他の組織とのシンプルかつ安全なデータ共有のための業界初のオープンプロトコルであるデルタシェアリングのネイティブサポートも提供する。

Databricks SQL

Databricks SQL (DB SQL) は、Databricks Lakehouse プラットフォーム上のサーバーレスデータウェアハウスであり、最大 12 倍優れた価格/パフォーマンス、統合されたガバナンスモデル、オープンフォーマットと API、ツールを備えたすべての SQL および BI アプリケーションを大規模に実行できます。

Easily ingest, transform and orchestrate data from anywhere

データがどこにあっても操作できる。
Turnkey機能により、アナリストや分析エンジニアは、Fivetran を使用してクラウドストレージなどから下記にデータを簡単に取り込める。
- Salesforce
- Google Analytics
- Marketo
依存関係を管理し、Lakehouse の組み込み ETL 機能を使用してインプレースでデータを変換するか、Databricks SQL の dbt などのお気に入りのツールを使用して、クラス最高のパフォーマンスを実現する。

Modern analytics and BI with your tools of choice

下記のようなBIツールとシームレスに連携する
- Tableau
- Power BI
- Looker
アナリストはお気に入りのツールを使用して、最も完全で最新のデータから新しいビジネスの洞察を発見できるようになった。
Databricks SQL を使用すると、すべてのアナリストが、組み込みの SQL エディター、視覚化、ダッシュボードを使用して、協力してクエリを実行し、洞察を見つけて共有できるようになる。

Eliminate resource management with serverless compute

Databricks SQL サーバーレスを使用すると、Lakehouse でクラウドインフラストラクチャを管理、構成、拡張する必要がなくなり、データチームが最大限の作業に集中できる。
Databricks SQL ウェアハウスは、ストレージから切り離された即時の柔軟な SQL コンピューティングを提供し、同時実行性の高いユースケース向けに、中断することなく無制限の同時実行性を提供するように自動的にスケーリングする。

Built from the ground up for best-in-class performance

Databricks SQL には、すべてのツール、クエリタイプ、実際のアプリケーションに対して最高のパフォーマンスを提供するための何千もの最適化が詰め込まれている。
次世代のベクトル化クエリエンジン Photon が含まれており、SQL ウェアハウスと組み合わせることで、他のクラウドデータウェアハウスよりも最大 12 倍優れた価格/パフォーマンスを提供する。

※出典：https://www.databricks.com/product/databricks-sql

Centrally store and govern all your data with standard SQL

オープンフォーマットの Delta Lake を使用してすべてのデータの 1 つのコピーを作成し、データのロックインを回避し、Lakehouse 上でインプレース分析と ETL/ELT を実行する。
これ以上、ばらばらのシステムでデータを移動したりコピーしたりする必要はありません。次に、Databricks Unity Catalog を使用して、きめ細かいガバナンス、データ系統、クラウド全体の標準 SQL を使用して、すべてのデータを簡単に検出、保護、管理します。

Built on a common data foundation, powered by the Lakehouse Platform

クラウドデータウェアハウスの数分の 1 のコストで世界クラスのパフォーマンスを実現
生のデータから大規模な実用的なデータまでの時間を短縮し、バッチとストリーミングを統合
Lakehouse を使用すると、データチームが記述分析から予測分析に簡単に移行して、新しい洞察を発見できる。

Data Sharing

Databricks と Linux Foundation は、データ、分析、AI 全体でのデータ共有に対する初のオープンソースアプローチを提供するために、Delta Sharing を開発しました。顧客は、Databricks などの特定のデータ共有サービスに依存することなく、プラットフォーム、クラウド、リージョン全体で、モデル、ダッシュボード、ノートブックだけでなく、ライブデータセットも共有できます。この柔軟性は、デルタ共有を Databricks Unity Catalog と統合して共有データセットへのアクセスを管理、追跡、監査することにより、強力なセキュリティとガバナンスによって実現されます。

Share across platforms

下記を共有する。
- ライブデータセット
- モデル
- ダッシュボード
- ノートブック
- プラットフォーム
- クラウド
- リージョン間
デルタ共有を活用したオープンなアプローチにより、データ資産をより迅速に活用し、より迅速に洞察を発見できる。

Share all your data and AI

オープンなマーケットプレイスで下記を発見し、使用することが出来る。
- データセット
- ノートブック
- ML モデル
- アプリケーション

Share securely

組織内または社外で、高品質で安全にソースされたデータを発見して取得し、顧客、サプライヤー、パートナーとの大規模なコラボレーションを加速。
Unity Catalog を使用して、1 つのプラットフォーム上で大規模なデータ使用量を一元管理、監査、監視する。
既存のレイクハウスデータに対して任意の言語で機密計算を実行し、スケーラブルな Databricks Clean Room を使用して複数のパートナーと連携する。

AI and Machine Learning

オープンレイクハウスアーキテクチャに基づいて構築された Databricks の AI と機械学習は、ML チームがデータを準備して処理できるようにし、チーム間のコラボレーションを合理化し、生成 AI や大規模言語モデルを含む実験から本番までの完全な ML ライフサイクルを標準化します。

Simplify all aspects of data for AI and ML

Databricks ML は Delta Lake を使用したオープンレイクハウス基盤上に構築されているため、機械学習チームがあらゆる規模であらゆる種類のデータにアクセス、探索、準備できる。
データエンジニアリングサポートに依存せずに、セルフサービス方式で機能を実稼働パイプラインに変換する。

Automate experiment tracking and governance

マネージド MLflow は実験を自動的に追跡し、パラメータ、メトリクス、データとコードのバージョン管理、トレーニング実行ごとのモデルアーティファクトを記録する。
必要に応じて、以前の実行をすばやく確認し、結果を比較し、過去の結果を再現できます。運用に最適なモデルのバージョンを特定したら、それをモデルレジストリに登録して、展開ライフサイクルに沿った引き継ぎを簡素化する。

Manage the full model lifecycle from data to production — and back

トレーニングされたモデルが登録されると、モデルレジストリを使用してライフサイクル全体にわたってモデルを共同管理できる。
モデルはバージョン管理され、実験、ステージング、実稼働、アーカイブなどのさまざまな段階を経て移動できる。
ライフサイクル管理は、役割ベースのアクセス制御に従って、承認およびガバナンスのワークフローと統合される。
コメントと電子メール通知は、データチームに充実した共同作業環境を提供する。

Deploy ML models at scale and low latency

サーバー管理や規模の制約を気にすることなく、ワンクリックでモデルをデプロイできる。
Databricks を使用すると、エンタープライズグレードの可用性を備えたどこにでも、モデルを REST API エンドポイントとしてデプロイできる。

Use generative AI and large language models

Hugging Face トランスフォーマーライブラリやその他のオープンソースライブラリのモデルなど、既存の事前トレーニング済みモデルをワークフローに統合。
Transformer パイプラインを使用すると、GPU を簡単に使用できるようになり、GPU に送信されるアイテムのバッチ処理が可能になり、スループットが向上。
特定のタスクに合わせてデータのモデルをカスタマイズできる。
Hugging Face や DeepSpeed などのオープンソースツールのサポートにより、基礎 LLM を迅速かつ効率的に取得し、独自のデータを使用してトレーニングを開始して、ドメインとワークロードの精度を高めることができる。
トレーニングに使用されるデータを管理することもできるため、AI を責任を持って使用していることを確認できる。

Data Science

オープンなレイクハウス基盤上に構築された協調的かつ統合されたデータサイエンス環境により、データの準備からモデリング、洞察の共有に至るまで、エンドツーエンドのデータサイエンスワークフローを合理化します。クリーンで信頼性の高いデータ、事前構成されたコンピューティングリソース、IDE 統合、多言語サポート、組み込みの高度な視覚化ツールにすばやくアクセスして、データ分析チームの柔軟性を最大限に高めます。

Collaboration across the entire data science workflow

Python、R、Scala、SQL でコードを記述し、インタラクティブな視覚化でデータを探索し、Databricks Notebooks で新しい洞察を発見する。
共同編集、コメント機能、自動バージョン管理、Git 統合、ロールベースのアクセス制御を使用して、自信を持って安全にコードを共有する。

Focus on the data science, not the infrastructure

ローカル環境をクラウドに迅速に移行し、ノートブックを独自の個人用コンピューティングおよび自動管理クラスターに接続する

Use your favorite local IDE with scalable compute

IDE の選択は非常に個人的なものであり、生産性に大きく影響する。
お気に入りの IDE を Databricks に接続すると、無制限のデータストレージとコンピューティングのメリットを引き続き活用できる。
Databricks 内から RStudio または JupyterLab を直接使用して、シームレスなエクスペリエンスを実現する。

Get data ready for data science

Delta Lake を使用すると、すべてのデータ (バッチ、ストリーミング、構造化または非構造化) を 1 か所でクリーンアップしてカタログ化し、一元化されたデータストアを介して組織全体で検出できるようになる。
データが受信されると、自動品質チェックにより、データが期待を満たしており、分析の準備ができていることが確認される。
新しいデータやさらなる変換によってデータが進化するにつれて、データのバージョン管理によりコンプライアンスのニーズに確実に対応できる。

Low-code, visual tools for data exploration

Databricks ノートブック内からビジュアルツールをネイティブに使用してデータを準備、変換、分析し、さまざまな専門レベルのチームがデータを操作できるようにする。
データの変換と視覚化が完了したら、バックグラウンドで実行されるコードを生成できるため、定型コードを作成する時間が節約され、価値の高い作業により多くの時間を費やすことができる。

Discover and share new insights

分析を動的なダッシュボードにすばやく変換することで、結果を簡単に共有およびエクスポートが可能。
ダッシュボードは常に最新であり、インタラクティブなクエリを実行することもできる。
セル、ビジュアライゼーション、またはノートブックは、ロールベースのアクセス制御で共有でき、HTML や IPython Notebook などの複数の形式でエクスポートできる。

Databricksの料金

2023/7/26時点でのPlatform Tiers and Add-Onsを元に整理しています。

基本的には、DBUと言われるコンピュートリソース単位に金額が決まります。

Standard、Premium、Enterpriseのプランにより使用できる機能が異なり、かつ、単価も異なります。
全て確認したけではありませんが、基本的にStandard＜Premium＜Enterpriseとなっています。

プランごとの機能差異

分類	機能	Standard	Premium	Enterprise
Databricks Workspace	Managed Apache Spark™	◯	◯	◯
	Optimized Delta Lake	◯	◯	◯
	Cluster Autopilot	◯	◯	◯
	Connectors and Integration	◯	◯	◯
	Databricks Runtime for ML	◯	◯	◯
	Managed MLflow	◯	◯	◯
Performance	-	Up to 50x faster than Apache Spark™	Optimized Runtime Engine	同左
Governance and Manageability	Administration Console	◯	◯	◯
	Unity Catalog (Cross-Workspace Data Governance)		◯	◯
	Unity Catalog (Automated Data Lineage)		◯	◯
	Managed Delta Sharing		◯	◯
	Audit Logs		◯	◯
	Cluster Policies		◯	◯
Enterprise Security	Single Sign-On (SSO)	◯	◯	◯
	Secure Cluster Connectivity	◯	◯	◯
	Role-Based Access Control		◯	◯
	Federated IAM		◯	◯
	Customer Managed VPC		◯	◯
	Token Management API		◯	◯
	Customer Managed Keys			◯
	IP Access List			◯
	PrivateLink			◯
	Enhanced Security And Compliance			※Available as a platform add-on. See below.
Enhanced Security and Compliance	Enhanced Security Monitoring			◯
	HIPAA Compliance Controls			◯
	PCI-DSS Compliance Controls			◯
	FedRAMP-Moderate Compliance Controls			◯

実践

Databricksアカウントの作成

ここからは、Databricks Platformのアカウント登録を行ったときの手順を記載します。
なおクラウドはAWSを使用します。

databricksのナビゲーションペインから「Try Databricks」を選択します。
下記を入力し、「Continue」をクリックします。
- 氏名
- メール
- 会社名、タイトル（役職）：※私は、個人で利用するのでIndivisualとしました。
Amazon Web Servicesを選択し、Continueをクリックします。
下記の画面が表示されると同時に、登録したメールアドレスに確認メールが送られてきますので、アクティベーションします。
パスワード設定画面で、任意のパスワードを入力し、「Set Password」をクリックします。
ここでは、Premiumを選択し、「Continue」をクリックします。 必要に応じて別のプランを選択してください。
「Get Started」をクリックします。
下記を準備し、「Confirm」をクリックします。
- AWS Account
- Databricksのパスワード
- ワークスペース名