Databricksワークスペースのコンセプト

Last updated at 2022-01-02Posted at 2021-04-10

Databricks Workspace concepts | Databricks on AWS [2021/3/17時点]の翻訳です。

本書の内容は古いものとなっています。

注意
本記事の内容に関する最新情報については、Databricksデータサイエンス&エンジニアリングのコンセプトを参照ください。

本記事は、Databricksワークスペースを効率的に利用するために理解すべき基本的なコンセプトをご紹介するものです。

ワークスペース

ワークスペース(英語)はDatabricksのすべてのアセットにアクセスするための環境となります。ワークスペースを活用することで、オブジェクト(ノートブック、ライブラリ、ダッシュボード、エクスペリメント)をフォルダー(英語)の中に格納し、データオブジェクトと計算リソースにアクセスすることができます。

本章では、Databricksワークスペースのフォルダーに格納されるオブジェクトを説明します。

ノートブック

実行可能なコマンドに加えて可視化、テキストを記述できるWebベースのインターフェースです。

ダッシュボード(英語)

構造化された可視化機能を提供するインターフェースです。

ライブラリ

クラスターで実行するノートブックやジョブで利用できるコードパッケージです。Databricksランタイムは多くのライブラリを有していますが、あなた自身のライブラリを追加することができます。

エクスペリメント

機械学習モデルをトレーニングするためのMLflowランの集合体です。

インターフェース

本章では、アセットにアクセスするためにDatabricksがサポートするインターフェース(UI、API、CLI:コマンドライン)を説明します。

Databricks UIは、ワークスペースフォルダー、オブジェクト、計算リソースに対する使いやすいグラフィカルインターフェースを提供します。

REST API(英語)

2種類のAPIがあります：REST API 2.0(英語)とREST API 1.2(英語)です。REST API 2.0はREST API 1.2のほとんどの機能をサポートしていることに加え、追加の機能も利用できるので2.0の使用を推奨します。

CLI(英語)

GitHubでホストされているオープンソースプロジェクトです。REST API 2.0の上で開発されています。

データマネジメント

本章では、データ分析をしたり機械学習アルゴリズムに流し込むデータを保持するオブジェクトを説明します。

Databricks File System (DBFS)

BLOBストアに対するファイルシステム抽象化レイヤーです。ファイル(データファイル、ライブラリ、画像)を格納するディレクトリーと他のディレクトリーから構成されています。DBFSには、Databricksを学ぶために必要なデータセットが最初から格納されています。

データベース

容易にアクセス、管理、更新が行えるように整理された情報の集合体です。

テーブル

構造化データです。Apache Spark SQLやApache Spark APIを用いてテーブルに対するクエリーを実行することができます。

メタストア(英語)

データウェアハウスにおけるテーブル、パーティションのカラム、カラムタイプ、データを読み書きするために必要なシリアライザ、デシリアライザ、データを格納するファイルを含む全ての構造情報を格納するコンポーネントです。Databricksデプロイメントはテーブルメタデータを永続化するために、全てのクラスターがアクセスできる中央Hiveメタストアを有しています。既存の外部Hiveメタストア(英語)を利用する選択肢を取ることもできます。

計算リソースマネジメント

本章ではDatabricksで計算処理を行うために理解すべきコンセプトを説明します。

クラスター(英語)

ノートブックやジョブを実行するための計算リソース及び設定のセットとなります。2種類のクラスターがあります。all-purpose(汎用)クラスターとジョブクラスターです。

UI、CLI、REST APIを用いてall-purposeクラスターを作成することができます。手動でall-purposeクラスターを停止、再起動することができます。共同でインタラクティブな分析を行う際には、複数のユーザーでクラスターを共有することができます。
あなたがジョブを新規ジョブクラスターで実行すると、Databricksのジョブスケジューラーがジョブクラスターを作成し、ジョブが完了すると停止させます。

プール

クラスターの起動時間、オートスケールの時間を短縮するために使用する、アイドル状態かつ利用可能なインスタンスの集団です。プールにアタッチされた際、クラスターはプールからドライバーノードとワーカーノードを割り当てます。クラスターからの要求に応える十分なリソースがない場合には、プールはインスタンスプロバイダーから新たなインスタンスを獲得し、プールを拡張します。アタッチされたクラスターが停止された際には、使用されたインスタンスはプールに返却され、別のクラスターで再利用することが可能になります。

Databricksランタイム(英語)

Databricksが管理するクラスターで動作する主要コンポーネントの集合体です。Databricksはいくつかの種類のランタイムを提供します：

Databricksランタイム(英語)はApache Sparkに加え、ビッグデータ分析における使いやすさ、性能、セキュリティを改善する様々なコンポーネントを含みます。
機械学習向けDatabricksランタイムはDatabricksランタイムに加えて、機械学習、データサイエンスにすぐに着手できる環境を提供します。TensorFlow、Keras、PyTorch、XGBoostと言った有名なライブラリを搭載しています。
ゲノミクス向けDatabricksランタイム(英語)はゲノミクス、バイオケミカルに最適化したバージョンのDatabricksランタイムです。
Databricks Light(英語)は、DatabricksがパッケージングしたオープンソースのApache Sparkランタイムです。Databricksランタイムで提供される先進的な性能、信頼性、オートスケーリングの機能を必要としないジョブ実行における選択肢となります。JAR、Python、spark-submitのジョブを実行するクラスターを作成する際にのみDatabricks Lightを選択できます。インタラクティブ、あるいはノートブックジョブを実行する際のクラスターで選択することはできません。

ジョブ

ノートブックやライブラリを非インタラクティブに実行する機構です。即時実行、スケジュール実行が可能です。

ワークロード

Databricksは、異なる価格体系が適用される2種類のワークロードを識別します：データエンジニアリング(ジョブ)とデータアナリティクス(all-purpose)です。

データエンジニアリング それぞれのワークロードに対してDatabricksジョブスケジューラーがジョブクラスターを作成して実行する(自動)ワークロード
データアナリティクス All-purposeクラスターで実行される(インタラクティブ)ワークロード。インタラクティブワークロードは通常、Databricksノートブックにおけるコマンド実行です。しかし、既存のall-purposeクラスターでジョブを実行した場合には、インタラクティブワークロードとして扱われます。

実行コンテキスト

サポートされるプログラミング言語に対するREPL環境の状態。サポート言語はPython、R、ScalaとSQLです。