Databricks concepts | Databricks on AWS [2022/10/26時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Databricksクイックスタートガイドのコンテンツです。
本書では、Databricksをを効果的に使うために理解すべき基本的な一連のコンセプトをご紹介します。
いくつかのコンセプトはDatabricksで共通するものであり、他のものは使用するペルソナベースのDatabricks環境に固有のものとなります。
- Databricksデータサイエンス & エンジニアリング
- Databrikcsマシンラーニング
- Databricks SQL
一般的なコンセプト
このセクションでは、Databricksのペルソナベースの環境に共通して適用されるコンセプトを説明します。
アカウントとワークスペース
Databricksではワークスペースには2つの意味があります。
- Databricksのすべての資産にアクセスするためにチームが使用する統合環境として機能するクラウド上のDatabricksデプロイメントです。皆様の組織においては、必要に応じて単一のワークスペースか複数のワークスペースを持つことができます。
- Databricksのペルソナベースの環境のためのUIです。
Databricksのアカウントは課金とサポートに対応する単一のエンティティを表現します。複数のワークスペースを含めることができます。
課金
DBU
Databricksは、VMインスタンスタイプに基づく時間あたりの計算能力の単位であるDatabricksユニット(DBU)に基づいて課金します。
Databricks on AWS pricing estimatorやView billable usage using the account consoleをご覧ください。
認証と承認
このセクションでは、DatabricksのアイデンティティとそれらのDatabricks資産に対するアクセスを管理する際に知るべきコンセプトを説明します。
ユーザー
システムにアクセスできるユニークな個人です。ユーザーアイデンティティはメールアドレスで表現されます。
サービスプリンシパル
ジョブや自動化ツール、スクリプト、アプリケーション、CI/CDプラットフォームの様なシステムで使用するサービスアイデンティティです。サービスプリンシパルはアプリケーションIDで表現されます。
グループ
アイデンティティのコレクションです。グループを用いることでアイデンティティ管理をシンプルにし、ワークスペース、データ、その他のセキュリティ保護可能オブジェクトに対するアクセス割り当てを容易にします。すべてのDatabrikcsアイデンティティは、グループのメンバーとして割り当てることができます。
アクセスコントロールリスト (ACL)
ワークスペース、クラスター、ジョブ、テーブル、エクスペリメントにアタッチされる権限リストです。ACLはどのユーザーやシステムの処理が、オブジェクトに対してアクセスできるのか、どのようなオペレーションが資産に対して許可されるのかを指定します。通常のACLのそれぞれのエンティティでは、対象とオペレーションを指定します。
パーソナルアクセストークン
SQLウェアハウスに接続するために、DatabricksインテグレーションのツールやREST APIを承認するために難読化された文字列が使用されます。
Databricksデータサイエンス & エンジニアリング
Databricksのデータサイエンス & エンジニアリングは、データサイエンティスト、データエンジニア、データアナリストがコラボレーションするための従来からあるDatabricks環境です。このセクションでは、Databricksデータサイエンス & エンジニアリング環境で効果的に作業するために理解すべき基本的なコンセプトを説明します。
ワークスペース
ワークスペースは、すべてのDatabricks資産にアクセスするための環境です。ワークスペースはオブジェクト(ノートブック、ライブラリ、ダッシュボード、エクスペリメント)をフォルダーに整理し、データオブジェクトと計算資源へのアクセスを提供します。
このセクションでは、Databricksワークスペースフォルダーに格納されるオブジェクトを説明します。
ノートブック
実行可能なコマンド、ビジュアライゼーション、ナラティブなテキストを含むドキュメントのwebベースのインタフェースです。
ダッシュボード
ビジュアライゼーションへのアクセスを整理するインタフェースです。
ライブラリ
お使いのクラスターで実行されるノートブックやジョブで利用できるコードのパッケージです。Databricksランタイムには多くのライブラリが含まれており、自分で追加することもできます。
Repo
リモートGitリポジトリと同期することで、コンテンツを共同バージョン管理できるフォルダーです。
エクスペリメント
機械学習モデルトレーニングに対応するMLflowランのコレクションです。
データサイエンス & エンジニアリングのインタフェース
このセクションでは、あなたの資産にアクセスするためにDatabricksがサポートするインタフェース(UI、API、コマンドライン(CLI))を説明します。
UI
DatabricksのUIはワークスペースのフォルダーとそこに含まれるオブジェクト、データオブジェクト、計算資源に対して使いやすいGUIを提供します。
REST API
3つのバージョンのREST APIがあります:2.1、2.0と1.2です。REST API 2.1と2.0は、REST API 1.2のほとんどの機能と追加の機能をサポートしており、これらを使うことが望ましいです。
CLI
GitHubでホストされているオープンソースプロジェクトです。CLIはREST API (最新)をベースにして開発されています。
データサイエンス & エンジニアリングにおけるデータ管理
このセクションでは、分析を実行し、機械学習アルゴリズムに入力するデータを保持するオブジェクトを説明します。
Databricksファイルシステム(DBFS)
blobストア上にあるファイルシステム抽象化レイヤーです。ファイルや他のディレクトリを格納するディレクトリが含まれます。DBFSには、皆様がDatabricksを学ぶために活用できるいくつかのデータセットが自動的に登録されます。
データベース
容易にアクセス、管理、更新できる様に整理された情報のコレクションです。
テーブル
構造化データ表現です。Apache Spark SQLやApache Spark APIでテーブルにクエリーを実行することができます。
メタストア
カラムやカラムタイプ情報、データの読み書きに必要なシリアライザ、デシアライザを含むデータウェアハウスの様々なテーブルやパーティションに関するすべての構造情報と、データが格納される対応ファイルのすべてを格納するコンポーネントです。すべてのDatabricksデプロイメントにはテーブルメタデータを永続化するために、すべてのクラスターからアクセスできる中央Hiveメタストアが含まれています。また、外部Hiveメタストアを選択することもできます。
データサイエンス & エンジニアリングにおける計算資源管理
このセクションでは、Databricksデータサイエンス & エンジニアリングで計算処理を実行するために知るべきコンセプトを説明します。
クラスター
ノートブックやジョブを実行する一連の計算資源と構成です。クラスターにはall-purpose(汎用)とjobの2つのタイプがあります。
- UI、CLI、REST APIを用いてall-purposeクラスターを作成します。手動でall-purposeクラスターを停止、再起動することができます。コラボレーティブかつインタラクティブ分析を行うために、この様なクラスターを複数ユーザーで共有することができます。
- 新規ジョブクラスターでジョブを実行する際に、Databricksジョブスケジューラーがジョブクラスターを作成し、ジョブが完了するとクラスターを停止します。ジョブクラスターを再起動することはできません。
プール
クラスターの起動時間とオートスケーリングの時間を削減するアイドル状態で利用可能なインスタンスのセットです。プールにアタッチされると、クラスターはプールからドライバーノードとワーカーノードを割り当てます。プールにクラスターのリクエストに答えるための十分なアイドルリソースがない場合には、プールはインスタンスプロバイダーから新規インスタンスを割り当てることて拡張します。アタッチされたクラスターが停止されると、使用されたインスタンスはプールに返却され、別のクラスターで再利用できる様になります。
Databrikcsランタイム
クラスターで実行されるDatabricksによって管理される一連のコアコンポーネントです。Databricksではいくつかのタイプのランタイムを提供しています。
- Databricksランタイムには、Apache Sparkだけではなく、ビッグデータ分析における使いやすさ、性能、セキュリティを劇的に改善する多数のコンポーネントとアップデートが含まれています。
- Databricks機械学習ランタイムはDatabricksランタイムをベースとしており、機械学習やデータサイエンスですぐに利用できる環境を提供します。TensorFlow、Keras、PyTorch、XGBoostの様な様々な人気のあるライブラリが含まれています。
- Databricks Lightは、オープンソース版のApache SparkランタイムのDatabricksパッケージです。Databricksランタイムによって提供される高度なパフォーマンス、信頼性、オートスケーリングのメリットが不要な場合にジョブに対するランタイムの選択肢を提供します。JAR、Python、spark-submitジョブを実行するためにクラスターを作成する際にのみDatabricks Lightを選択することができます。インタラクティブやノートブックジョブのワークロードを実行するクラスターではこれを選択することはできません。
ワークフロー
データ処理パイプラインを開発、実行するためのフレームワークです。
- Create, run, and manage Databricks Jobs: ノートブックやライブラリを即時あるいはスケジュールベースで実行する非インタラクティブなメカニズムです。
- Delta Live Tables introduction: 高信頼、維持可能、テスト可能なデータ処理パイプラインを構築するためのフレームワークです。
ワークロード
Databricksでは異なる課金スキームに対応する2つのタイプのワークロードを認識します。データエンジニアリング(job)とデータアナリティクス(all-purpose)です。
- データエンジニアリング: Databricksジョブスケジューラーがワークロードごとに作成するジョブクラスターで実行される(自動化)ワークロードです。
- データアナリティクス: all-purposeクラスターで実行される(インタラクティブな)ワークロードです。インタラクティブなワークロードは、通常Databricksノートブックのコマンドによって実行されます。しかし、既存のall-purposeクラスターでのジョブ実行もインタラクティブワークロードと見做されます。
実行コンテキスト
サポートされるそれぞれのプログラミング言語に対応するREPLの状態です。サポートされる言語はPython、R、Scala、SQLです。
Databricksマシンラーニング
Databricksマシンラーニング環境は、データサイエンス & エンジニアリングワークスペースに機能を追加しています。重要なコンセプトには以下のものがあります。
エクスペリメント
機械学習モデル開発をトラッキングするメインの整理ユニットです。エクスペリメントは、モデルトレーニングコードの記録された個々のランを整理、表示、アクセスコントロールを行います。
特徴量ストア
集中管理された特徴量のリポジトリです。Databricks Feature Storeを用いることで、企業内での特徴量の共有、発見が可能となり、モデルトレーニングと推論で同じ特徴量計算コードを使用することを保証することもできます。
モデル
モデルレジストリに登録されたトレーニング済み機械学習モデル、ディープラーニングモデルです。
Databricks SQL
Databricks SQLは、SQLクエリーとBIツールを主に用いて作業するデータアナリスト向けのものです。お使いのデータレイクに格納されているデータに対してアドホックのクエリーを実行し、ダッシュボードを作成するための直感的な環境を提供します。このUIはデータサイエンス & データエンジニアリングやDatabricksマシンラーニング環境とは大きく異なります。このセクションでは、Databricks SQLを効果的に活用するために理解すべき基本的なコンセプトを説明します。
Databricks SQLのインタフェース
このセクションではDatabricks SQLの資産にアクセスするためにDatabricksがサポートするインタフェースを説明します。
UI: ダッシュボード、クエリー、SQLウェアハウス、クエリー履歴、アラートに対するGUIです。
REST API: Databricks SQLのオブジェクトに対するタスクを自動化できるインタフェースです。
Databricks SQLにおけるデータ管理
ビジュアライゼーション: クエリー実行結果のグラフィカル表現です。
ダッシュボード: クエリービジュアライゼーションとコメントの表現です。
アラート: クエリーで得られる値が閾値に達することで発呼される通知です。
Databricks SQLにおける計算資源管理
このセクションでは、Databricks SQLでSQLをクエリーするために理解すべきコンセプトを説明します。
クエリー: 適切なSQL文です。
SQLウェアハウス: SQLクエリーを実行する計算資源です。
クエリー履歴: 実行されたクエリーとパフォーマンス特性の一覧です。