背景・目的
Databricksについて調べる機会がありましたので、特徴を整理しアカウントを作成するまでを記載します。
なお、本記事はDatabricksのドキュメントを翻訳し、簡単に整理したものになります。
まとめ
- レイクハウスプラットフォームには下記の特徴があります。
- 統合
- 単一プラットフォームで分析とAIに対応
- オープン
- 他のツールと統合が容易
- プラットフォームに依存しないセキュアなデータ共有が可能
- スケーラビリティ
- シンプルなデータパイプライン〜大規模LLMまであらゆるワークフローに対応
- データ管理とエンジニアリング
- 自動化された信頼性の高いETL
- オープンでセキュアなデータ共有
- 超高速性能
- 構造化/非構造/半構造をデータレイクに格納
- データウェアハウス
- Databricks SQL
- 従来のクラウド型のDWHの性能と比較して最大の12倍の価格性能
- 最新で完全なデータへの容易なアクセス
- データサイエンスと機械学習
- レイクハウスを基盤として構築
- 機械学習の完全なライフサイクルをサポート
- データガバナンス
- 構造化、非構造化データに対する単一のデータガバナンスモデル
- 全体像を把握可能
- 自動リネージ機能
- 監視機能
- データ共有
- 厳格なセキュリティとガバナンスを維持しながら、下記を共有できる
- ライブデータセット
- モデル
- ダッシュボード
- ノートブック
- 厳格なセキュリティとガバナンスを維持しながら、下記を共有できる
- 統合
- Databricksを始めるには下記の方法があります。
- Databricks platform
- Free Trial 14日間がついてきます。
- Community Edition
- いくつかの制限付きですが、無料
- Databricks platform
- Databricks platformには、下記の3つがあり機能やコストの差異あります。
- standard
- premium
- enterprise
概要
Databricksのページを元に簡単に整理します。
Delta Lake
What is Delta Lake?
- Delta Lake は、ストリーミングおよびバッチ操作をサポート
- トランザクション、分析、AI のユースケース向けにすべてのデータタイプを統合
- パフォーマンスを提供に優れ、コスト効率が高く拡張性の高いレイクハウスの基盤
※出典:https://www.databricks.com/product/delta-lake-on-databricks
Open and vast ecosystem
- Delta Lake Universal Format (UniForm) を使用し、Iceberg または Hudi クライアントを使用して、Unity Catalog エンドポイントを通じて Delta テーブルを読み取ることができる。
- Delta Lake 3.0 はコネクタ エコシステムを簡素化する。
- Delta カーネルは安定したライブラリ API を提供するため、コネクタはコードを変更せずに新しい Delta 機能を簡単に組み込める。
Lightning-fast performance
- Delta Lake on Databricks は、他のストレージ形式よりも最大 1.7 倍高速にデータのロードとクエリを実行することで、大規模なスケールと速度を実現する。
※出典:https://www.databricks.com/product/delta-lake-on-databricks
AI-driven for best price/performance
- Unity Catalog と Photon を備えた Delta Lake は、手動調整なしですぐに最高の価格/パフォーマンスを提供する。
- Databricks Lakehouse は AI モデルを使用してデータ ストレージに関する一般的な課題を解決するため、時間の経過とともにテーブルが変化しても手動でテーブルを管理する必要がなく、より高速なパフォーマンスが得られる。
- 更新の予測 I/O は、クエリ プランとデータ レイアウトを最適化してピーク パフォーマンスを実現し、読み取りパフォーマンスと書き込みパフォーマンスのバランスをインテリジェントに実現。
- Copy on Write とMerge on Read のような戦略のどちらを選択するかを決める必要がなく、データからより多くの情報を取得できる。
- Liquid clusteringは、適切に調整され、適切にパーティション化されたテーブルのパフォーマンスを実現する。その結果、最小限の構成で超高速で適切にクラスター化されたテーブルが作成される。
- 予測最適化は、最高のパフォーマンスと価格を実現するためにデータを自動的に最適化する。 データ使用パターンから学習し、適切な最適化を実行するための計画を構築し、高度に最適化されたサーバーレス インフラストラクチャ上でそれらの最適化を実行する。
Open and secure data sharing
- Delta Sharing は、安全なデータ共有のための業界初のオープンプロトコル
- データがどこに存在するかに関係なく、他の組織と簡単にデータを共有できる。
- Unity カタログとのネイティブ統合により、組織全体で共有データを一元管理および監査できる。
- これにより、セキュリティとコンプライアンスのニーズを満たしながら、ビジネスをより適切に調整するためにサプライヤーやパートナーとデータ資産を共有できる。
- 主要なツールやプラットフォームとの統合により、選択したツールから共有データを視覚化、クエリ、強化、管理することができる。
Automated and trusted data engineering
- Delta Live Tables を使用してデータ エンジニアリングを簡素化する。
- Delta Lake 上の新鮮で高品質なデータのデータ パイプラインを構築および管理する簡単な方法。
- 宣言型パイプライン開発による ETL 開発と管理の簡素化、データの信頼性の向上、およびレイクハウス基盤の構築を支援するクラウドスケールの本番運用により、データ エンジニアリング チームを支援する。
※出典:https://www.databricks.com/product/delta-lake-on-databricks
Security and governance at scale
- Delta Lake は、データ ガバナンスのためのきめ細かいアクセス制御を可能にすることでリスクを軽減する。
- データレイク内のデータを迅速かつ正確に更新して GDPR などの規制に準拠し、監査ログを通じてより優れたデータガバナンスを維持できる。
- レイクハウスの最初のマルチクラウドデータカタログである Unity カタログの一部として Databricks にネイティブに統合され、強化されている。
Unity Catalog
Databricks Unity Catalog は、レイクハウス上のデータと AI のための業界初の統合ガバナンス ソリューションです。
Unity Catalog を使用すると、組織はあらゆるクラウドプラットフォームの下記をシームレスに管理できる。
- 構造化データ
- 非構造化データ
- 機械学習モデル
- ノートブック
- ダッシュボード
- ファイル
データ サイエンティスト、アナリスト、エンジニアは Unity Catalog を使用して、信頼できるデータと AI 資産を安全に検出、アクセス、共同作業することができます。
AI を活用して生産性を向上させこのガバナンスへの統一アプローチにより、データと AI への取り組みが加速され、同時に規制遵守も簡素化された方法で確保されます。
Unified visibility into data and AI
- あらゆるクラウド上の構造化データと非構造化データ、ML モデル、ノートブック、ダッシュボード、および任意のファイルを検出して分類する。
- 下記のプラットフォーム等からのデータを一箇所に統合、マッピング、クエリする
- MySQL
- PostgreSQL
- Amazon Redshift
- Snowflake
- Azure SQL
- Azure Synapse
- Google の BigQuery
- データ探索のための単一アクセス ポイントにより、データと AI の取り組みを加速する。
- 自然言語を使用してデータと AI から安全に検索、理解、洞察を抽出することで、生産性を向上させる。
※出典:https://www.databricks.com/product/unity-catalog
Single permission model for data and AI
- 統合されたインターフェイスによりアクセス管理を簡素化し、データおよび AI 資産に対するアクセス ポリシーを定義し、これらのポリシーをクラウドやデータ プラットフォームに一貫して適用および監査する。
- オープンインターフェイスを使用して他のコンピューティングプラットフォームからデータに安全にアクセスし、一貫した権限を 1 か所で管理する。
- 行と列をきめ細かく制御してセキュリティを強化しながら、シームレスに拡張できるローコードの属性ベースのアクセス ポリシーを通じてアクセスを効率的に管理する。
AI-powered monitoring and observability
- AI の力を利用してモニタリングを自動化し、エラーを診断し、データと ML モデルの品質を維持する。
- 個人識別情報 (PII) データを自動的に検出し、モデルのドリフトを追跡し、データと AI パイプライン内の問題を効果的に解決して精度と整合性を維持するプロアクティブなアラートのメリットを活用する。
- 自動化された列レベルのデータ系統により、デバッグ、根本原因分析、影響評価を合理化する。
- 請求、監査、リネージュなどの組み込みシステム テーブルを利用したオペレーショナル インテリジェンスにより、データと AI に対する包括的なレイクハウスの可観測性を獲得する。
※出典:https://www.databricks.com/product/unity-catalog
Open data sharing
- Unity Catalog 内にネイティブに統合されたオープンソース デルタ シェアリングを使用して、クラウド、リージョン、プラットフォーム間でデータと AI アセットを簡単に共有する。
- 独自のフォーマット、複雑な ETL プロセス、コストのかかるデータ レプリケーションに依存することなく、どこでも誰とでも安全にコラボレーションして、新しい収益源を開拓し、ビジネス価値を推進する。
※出典:https://www.databricks.com/product/unity-catalog
Data Engineering
Databricks Lakehouse プラットフォームでバッチ データとストリーミング データを簡単に取り込んで変換します。 Databricks が大規模なインフラストラクチャを自動的に管理しながら、信頼性の高い運用ワークフローを調整します。 組み込みのデータ品質テストとソフトウェア開発のベスト プラクティスのサポートにより、チームの生産性が向上する。
Simplified data ingestion
- データを Lakehouse プラットフォームに取り込み、分析、AI、ストリーミング アプリケーションを 1 か所から強化する。
- Auto Loader は、状態情報を管理することなく、スケジュールされたジョブまたは継続的なジョブで、クラウド ストレージに配置されたファイルを増分的かつ自動的に処理する。
- 新しいファイル (数十億個まで) をディレクトリにリストすることなく効率的に追跡し、ソース データからスキーマを自動的に推測し、時間の経過とともに変化するように展開することもできる。
- COPY INTO コマンドを使用すると、アナリストは SQL 経由で Delta Lake へのバッチ ファイルの取り込みを簡単に実行できる。
Automated ETL processing
- 生データを取り込んだ後は、分析や AI に使用できるように変換する必要がある。Databricks は、Delta Live Tables (DLT) を使用して、データ エンジニア、データ サイエンティスト、アナリストに強力な ETL 機能を提供する。
- DLT は、シンプルな宣言的アプローチを使用してバッチ データまたはストリーミング データに ETL および ML パイプラインを構築すると同時に、インフラストラクチャ管理、タスク オーケストレーション、エラー処理と回復、パフォーマンスの最適化などの運用の複雑さを自動化する最初のフレームワークを指す。
- DLT を使用すると、エンジニアはデータをコードとして扱い、テスト、監視、文書化などのソフトウェア エンジニアリングのベスト プラクティスを適用して、信頼性の高いパイプラインを大規模に展開することもできる。
※出典:https://www.databricks.com/solutions/data-engineering
Reliable workflow orchestration
- Databricks Workflows は、Lakehouse プラットフォームにネイティブな、すべてのデータ、分析、AI のためのフルマネージドオーケストレーションサービス。
- SQL、Spark、ノートブック、dbt、ML モデルなどのデルタ ライブ テーブルとジョブを含む、ライフサイクル全体にわたって多様なワークロードを調整する。
- 基盤となる Lakehouse プラットフォームとの緊密な統合により、あらゆるクラウド上で信頼性の高い本番ワークロードを作成して実行できると同時に、エンドユーザーに簡単に詳細な集中監視を提供できる。
End-to-end observability and monitoring
- Lakehouse プラットフォームは、データと AI のライフサイクル全体にわたる可視性を提供するため、データ エンジニアと運用チームは実稼働ワークフローの健全性をリアルタイムで確認し、データ品質を管理し、過去の傾向を理解することができる。
- Databricks ワークフローでは、本番ジョブとデルタ ライブ テーブル パイプラインの健全性とパフォーマンスを追跡するデータフロー グラフとダッシュボードにアクセスできます。 イベント ログは Delta Lake テーブルとしても公開されるため、パフォーマンス、データ品質、信頼性のメトリクスをあらゆる角度から監視および視覚化できます。
Next-generation data processing engine
- Databricks データ エンジニアリングは、Apache Spark API と互換性のある次世代エンジンである Photon を利用している。
- 数千ノードまで自動的に拡張しながら記録破りの価格/パフォーマンスを実現する。
- Spark Structured Streaming は、バッチおよびストリーム処理用の単一の統合 API を提供し、コードを変更したり新しいスキルを学習したりすることなく、レイクハウスでストリーミングを簡単に導入できる。
State-of-the art data governance, reliability and performance
- Databricks でのデータ エンジニアリングは、Lakehouse プラットフォームの基本コンポーネントである Unity Catalog と Delta Lake の恩恵を受けることを意味する。
- 生データは、ACID トランザクションによる信頼性と超高速パフォーマンスによるスケーラブルなメタデータ処理を提供するオープンソースストレージ形式である Delta Lake で最適化される。
- これを Unity Catalog と組み合わせることで、すべてのデータと AI 資産に対してきめ細かいガバナンスが提供され、クラウド全体でデータを検出、アクセス、共有するための 1 つの一貫したモデルによって管理方法が簡素化される。
- Unity Catalog は、他の組織とのシンプルかつ安全なデータ共有のための業界初のオープンプロトコルであるDelta Sharingのネイティブ サポートも提供する。
Data Streaming
Databricks Lakehouse プラットフォームは、データストリーミングを大幅に簡素化し、リアルタイム分析、機械学習、アプリケーションを 1 つのプラットフォーム上で提供します。
データチームがすでに知っている言語とツールを使用してストリーミングデータワークロードを構築できるようにします。 リアルタイム データ ワークロードの構築と維持に関連する運用面を自動化することで、開発と運用を簡素化します。
ストリーミングデータとバッチデータ用の単一プラットフォームでデータサイロを排除します。
Streaming data ingestion and transformation
- Delta live tableを使用して、ストリーミング データ パイプラインのデータインジェストと ETLを簡素化する。
- シンプルな宣言型アプローチをデータ エンジニアリングに活用することで、SQL や Python など、チームがすでに知っている言語やツールを使用できるようになる。
- 制御可能で自動化された更新設定を使用して、バッチ データ パイプラインとストリーミング データ パイプラインを 1 か所で構築して実行し、時間を節約し、運用の複雑さを軽減する。
- データをどこに送信する予定であっても、Databricks Lakehouse プラットフォーム上にストリーミング データ パイプラインを構築すると、生のデータとクリーンなデータの間で時間をロスすることがなくなる。
Real-time analytics, ML and applications
- ストリーミング データを使用すると、分析と AI の精度と実用性がすぐに向上する。
Automated operational tooling
- ストリーミング データ パイプラインを構築してデプロイすると、Databricks は運用に必要な複雑な運用タスクの多くを自動化する。 これには、基盤となるインフラストラクチャの自動スケーリング、パイプラインの依存関係の調整、エラー処理と回復、パフォーマンスの最適化などが含まれる。
- 強化された自動スケーリングは、固有のワークロードごとにコンピューティング リソースを自動的に割り当てることで、クラスターの使用率を最適化する。 これらの機能と自動データ品質テストおよび例外管理により、運用ツールの構築と保守に費やす時間が短縮され、データから価値を引き出すことに集中できる。
Next-generation stream processing engine
- Spark Structured Streaming は、Databricks Lakehouse プラットフォームでのデータ ストリーミングを可能にするコア テクノロジであり、バッチ処理とストリーム処理のための統合 API を提供する。
- Databricks Lakehouse プラットフォームは、99.95% の稼働率という実績のあるマネージド サービスを使用して Apache Spark ワークロードを実行するのに最適な場所。
- Spark ワークロードは、Apache Spark API と互換性のある次世代レイクハウスエンジンである Photon によってさらに高速化され、コストあたりの記録を破るパフォーマンスを実現しながら、数千ノードまで自動的に拡張できます。
Unified governance and storage
- Databricks でのデータ ストリーミングは、Lakehouse プラットフォームの基本コンポーネントである Unity Catalog と Delta Lake の恩恵を受けることを意味する。
- 生データは、ストリーミング データとバッチ データの両方のためにゼロから設計された唯一のオープンソースストレージフレームワークである Delta Lake で最適化される。
- Unity Catalog は、クラウド全体でデータを検出、アクセス、共有するための 1 つの一貫したモデルを使用して、すべてのデータと AI 資産に対してきめ細かい統合ガバナンスを提供する。
- Unity Catalog は、他の組織とのシンプルかつ安全なデータ共有のための業界初のオープンプロトコルであるデルタシェアリングのネイティブサポートも提供する。
Databricks SQL
Databricks SQL (DB SQL) は、Databricks Lakehouse プラットフォーム上のサーバーレス データ ウェアハウスであり、最大 12 倍優れた価格/パフォーマンス、統合されたガバナンス モデル、オープン フォーマットと API、ツールを備えたすべての SQL および BI アプリケーションを大規模に実行できます。
Easily ingest, transform and orchestrate data from anywhere
- データがどこにあっても操作できる。
- Turnkey機能により、アナリストや分析エンジニアは、Fivetran を使用してクラウド ストレージなどから 下記にデータを簡単に取り込める。
- Salesforce
- Google Analytics
- Marketo
- 依存関係を管理し、Lakehouse の組み込み ETL 機能を使用してインプレースでデータを変換するか、Databricks SQL の dbt などのお気に入りのツールを使用して、クラス最高のパフォーマンスを実現する。
Modern analytics and BI with your tools of choice
- 下記のようなBIツールとシームレスに連携する
- Tableau
- Power BI
- Looker
- アナリストはお気に入りのツールを使用して、最も完全で最新のデータから新しいビジネスの洞察を発見できるようになった。
- Databricks SQL を使用すると、すべてのアナリストが、組み込みの SQL エディター、視覚化、ダッシュボードを使用して、協力してクエリを実行し、洞察を見つけて共有できるようになる。
Eliminate resource management with serverless compute
- Databricks SQL サーバーレスを使用すると、Lakehouse でクラウド インフラストラクチャを管理、構成、拡張する必要がなくなり、データ チームが最大限の作業に集中できる。
- Databricks SQL ウェアハウスは、ストレージから切り離された即時の柔軟な SQL コンピューティングを提供し、同時実行性の高いユースケース向けに、中断することなく無制限の同時実行性を提供するように自動的にスケーリングする。
Built from the ground up for best-in-class performance
- Databricks SQL には、すべてのツール、クエリ タイプ、実際のアプリケーションに対して最高のパフォーマンスを提供するための何千もの最適化が詰め込まれている。
- 次世代のベクトル化クエリ エンジン Photon が含まれており、SQL ウェアハウスと組み合わせることで、他のクラウド データ ウェアハウスよりも最大 12 倍優れた価格/パフォーマンスを提供する。
※出典:https://www.databricks.com/product/databricks-sql
Centrally store and govern all your data with standard SQL
- オープンフォーマットの Delta Lake を使用してすべてのデータの 1 つのコピーを作成し、データのロックインを回避し、Lakehouse 上でインプレース分析と ETL/ELT を実行する。
- これ以上、ばらばらのシステムでデータを移動したりコピーしたりする必要はありません。 次に、Databricks Unity Catalog を使用して、きめ細かいガバナンス、データ系統、クラウド全体の標準 SQL を使用して、すべてのデータを簡単に検出、保護、管理します。
Built on a common data foundation, powered by the Lakehouse Platform
- クラウド データ ウェアハウスの数分の 1 のコストで世界クラスのパフォーマンスを実現
- 生のデータから大規模な実用的なデータまでの時間を短縮し、バッチとストリーミングを統合
- Lakehouse を使用すると、データ チームが記述分析から予測分析に簡単に移行して、新しい洞察を発見できる。
Data Sharing
Databricks と Linux Foundation は、データ、分析、AI 全体でのデータ共有に対する初のオープンソース アプローチを提供するために、Delta Sharing を開発しました。 顧客は、Databricks などの特定のデータ共有サービスに依存することなく、プラットフォーム、クラウド、リージョン全体で、モデル、ダッシュボード、ノートブックだけでなく、ライブ データ セットも共有できます。 この柔軟性は、デルタ共有を Databricks Unity Catalog と統合して共有データ セットへのアクセスを管理、追跡、監査することにより、強力なセキュリティとガバナンスによって実現されます。
Share across platforms
- 下記を共有する。
- ライブ データ セット
- モデル
- ダッシュボード
- ノートブック
- プラットフォーム
- クラウド
- リージョン間
- デルタ共有を活用したオープンなアプローチにより、データ資産をより迅速に活用し、より迅速に洞察を発見できる。
Share all your data and AI
- オープンなマーケットプレイスで下記を発見し、使用することが出来る。
- データセット
- ノートブック
- ML モデル
- アプリケーション
Share securely
- 組織内または社外で、高品質で安全にソースされたデータを発見して取得し、顧客、サプライヤー、パートナーとの大規模なコラボレーションを加速。
- Unity Catalog を使用して、1 つのプラットフォーム上で大規模なデータ使用量を一元管理、監査、監視する。
- 既存のレイクハウス データに対して任意の言語で機密計算を実行し、スケーラブルな Databricks Clean Room を使用して複数のパートナーと連携する。
AI and Machine Learning
オープン レイクハウス アーキテクチャに基づいて構築された Databricks の AI と機械学習は、ML チームがデータを準備して処理できるようにし、チーム間のコラボレーションを合理化し、生成 AI や大規模言語モデルを含む実験から本番までの完全な ML ライフサイクルを標準化します。
Simplify all aspects of data for AI and ML
- Databricks ML は Delta Lake を使用したオープン レイクハウス基盤上に構築されているため、機械学習チームがあらゆる規模であらゆる種類のデータにアクセス、探索、準備できる。
- データ エンジニアリング サポートに依存せずに、セルフサービス方式で機能を実稼働パイプラインに変換する。
Automate experiment tracking and governance
- マネージド MLflow は実験を自動的に追跡し、パラメータ、メトリクス、データとコードのバージョン管理、トレーニング実行ごとのモデル アーティファクトを記録する。
- 必要に応じて、以前の実行をすばやく確認し、結果を比較し、過去の結果を再現できます。 運用に最適なモデルのバージョンを特定したら、それをモデル レジストリに登録して、展開ライフサイクルに沿った引き継ぎを簡素化する。
Manage the full model lifecycle from data to production — and back
- トレーニングされたモデルが登録されると、モデル レジストリを使用してライフサイクル全体にわたってモデルを共同管理できる。
- モデルはバージョン管理され、実験、ステージング、実稼働、アーカイブなどのさまざまな段階を経て移動できる。
- ライフサイクル管理は、役割ベースのアクセス制御に従って、承認およびガバナンスのワークフローと統合される。
- コメントと電子メール通知は、データ チームに充実した共同作業環境を提供する。
Deploy ML models at scale and low latency
- サーバー管理や規模の制約を気にすることなく、ワンクリックでモデルをデプロイできる。
- Databricks を使用すると、エンタープライズグレードの可用性を備えたどこにでも、モデルを REST API エンドポイントとしてデプロイできる。
Use generative AI and large language models
-
Hugging Face トランスフォーマー ライブラリやその他のオープン ソース ライブラリのモデルなど、既存の事前トレーニング済みモデルをワークフローに統合。
-
Transformer パイプラインを使用すると、GPU を簡単に使用できるようになり、GPU に送信されるアイテムのバッチ処理が可能になり、スループットが向上。
-
特定のタスクに合わせてデータのモデルをカスタマイズできる。
-
Hugging Face や DeepSpeed などのオープンソース ツールのサポートにより、基礎 LLM を迅速かつ効率的に取得し、独自のデータを使用してトレーニングを開始して、ドメインとワークロードの精度を高めることができる。
-
トレーニングに使用されるデータを管理することもできるため、AI を責任を持って使用していることを確認できる。
Data Science
オープンなレイクハウス基盤上に構築された協調的かつ統合されたデータ サイエンス環境により、データの準備からモデリング、洞察の共有に至るまで、エンドツーエンドのデータ サイエンス ワークフローを合理化します。 クリーンで信頼性の高いデータ、事前構成されたコンピューティング リソース、IDE 統合、多言語サポート、組み込みの高度な視覚化ツールにすばやくアクセスして、データ分析チームの柔軟性を最大限に高めます。
Collaboration across the entire data science workflow
- Python、R、Scala、SQL でコードを記述し、インタラクティブな視覚化でデータを探索し、Databricks Notebooks で新しい洞察を発見する。
- 共同編集、コメント機能、自動バージョン管理、Git 統合、ロールベースのアクセス制御を使用して、自信を持って安全にコードを共有する。
Focus on the data science, not the infrastructure
- ローカル環境をクラウドに迅速に移行し、ノートブックを独自の個人用コンピューティングおよび自動管理クラスターに接続する
Use your favorite local IDE with scalable compute
- IDE の選択は非常に個人的なものであり、生産性に大きく影響する。
- お気に入りの IDE を Databricks に接続すると、無制限のデータ ストレージとコンピューティングのメリットを引き続き活用できる。
- Databricks 内から RStudio または JupyterLab を直接使用して、シームレスなエクスペリエンスを実現する。
Get data ready for data science
- Delta Lake を使用すると、すべてのデータ (バッチ、ストリーミング、構造化または非構造化) を 1 か所でクリーンアップしてカタログ化し、一元化されたデータ ストアを介して組織全体で検出できるようになる。
- データが受信されると、自動品質チェックにより、データが期待を満たしており、分析の準備ができていることが確認される。
- 新しいデータやさらなる変換によってデータが進化するにつれて、データのバージョン管理によりコンプライアンスのニーズに確実に対応できる。
Low-code, visual tools for data exploration
- Databricks ノートブック内からビジュアル ツールをネイティブに使用してデータを準備、変換、分析し、さまざまな専門レベルのチームがデータを操作できるようにする。
- データの変換と視覚化が完了したら、バックグラウンドで実行されるコードを生成できるため、定型コードを作成する時間が節約され、価値の高い作業により多くの時間を費やすことができる。
Discover and share new insights
- 分析を動的なダッシュボードにすばやく変換することで、結果を簡単に共有およびエクスポートが可能。
- ダッシュボードは常に最新であり、インタラクティブなクエリを実行することもできる。
- セル、ビジュアライゼーション、またはノートブックは、ロールベースのアクセス制御で共有でき、HTML や IPython Notebook などの複数の形式でエクスポートできる。
Databricksの料金
2023/7/26時点でのPlatform Tiers and Add-Onsを元に整理しています。
基本的には、DBUと言われるコンピュートリソース単位に金額が決まります。
- Standard、Premium、Enterpriseのプランにより使用できる機能が異なり、かつ、単価も異なります。
- 全て確認したけではありませんが、基本的にStandard<Premium<Enterpriseとなっています。
プランごとの機能差異
分類 | 機能 | Standard | Premium | Enterprise |
---|---|---|---|---|
Databricks Workspace | Managed Apache Spark™ | ◯ | ◯ | ◯ |
Optimized Delta Lake | ◯ | ◯ | ◯ | |
Cluster Autopilot | ◯ | ◯ | ◯ | |
Connectors and Integration | ◯ | ◯ | ◯ | |
Databricks Runtime for ML | ◯ | ◯ | ◯ | |
Managed MLflow | ◯ | ◯ | ◯ | |
Performance | - | Up to 50x faster than Apache Spark™ | Optimized Runtime Engine | 同左 |
Governance and Manageability | Administration Console | ◯ | ◯ | ◯ |
Unity Catalog (Cross-Workspace Data Governance) | ◯ | ◯ | ||
Unity Catalog (Automated Data Lineage) | ◯ | ◯ | ||
Managed Delta Sharing | ◯ | ◯ | ||
Audit Logs | ◯ | ◯ | ||
Cluster Policies | ◯ | ◯ | ||
Enterprise Security | Single Sign-On (SSO) | ◯ | ◯ | ◯ |
Secure Cluster Connectivity | ◯ | ◯ | ◯ | |
Role-Based Access Control | ◯ | ◯ | ||
Federated IAM | ◯ | ◯ | ||
Customer Managed VPC | ◯ | ◯ | ||
Token Management API | ◯ | ◯ | ||
Customer Managed Keys | ◯ | |||
IP Access List | ◯ | |||
PrivateLink | ◯ | |||
Enhanced Security And Compliance | ※Available as a platform add-on. See below. | |||
Enhanced Security and Compliance | Enhanced Security Monitoring | ◯ | ||
HIPAA Compliance Controls | ◯ | |||
PCI-DSS Compliance Controls | ◯ | |||
FedRAMP-Moderate Compliance Controls | ◯ |
実践
Databricksアカウントの作成
ここからは、Databricks Platformのアカウント登録を行ったときの手順を記載します。
なおクラウドはAWSを使用します。
-
下記を入力し、「Continue」をクリックします。
- 氏名
- メール
- 会社名、タイトル(役職):※私は、個人で利用するのでIndivisualとしました。
-
下記を準備し、「Confirm」をクリックします。
- AWS Account
- Databricksのパスワード
- ワークスペース名
AWSでDatabricksを作成
Databricks管理画面にログイン
考察
今回は、Databricksの特徴を整理し、アカウントを解説しました。次回以降、動作を確認していきます。
参考
https://www.databricks.com/jp
https://www.databricks.com/product/pricing