Workspace assets | Databricks on AWS [2022/5/9時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
本書ではDatabricksワークスペースの資産のハイレベルの紹介をします。
クラスター
Databricks Data Science & EngineeringとDatabricks Machine Learningのクラスターは、プロダクションETLパイプライン、ストリーミング分析、ad-hocの分析、機械学習の実行のような様々なユースケースに対する統合プラットフォームを提供します。クラスはある種のDatabricksの計算資源です。他の計算資源のタイプにはDatabricks SQLエンドポイントがあります。
クラスターの管理及び活用方法に関してはクラスターを参照ください。
ノートブック
ノートブックはファイル、テーブル、可視化を操作する実行可能なセル(コマンド)とナラティブなテキストを含むドキュメントに対するwebベースのインタフェースです。前に実行されたコマンドの出力を参照しつつ、順番にコマンドを実行することができます。
ノートブックはDatabricksでコードを実行するメカニズムの一つです。他のメカニズムにはジョブがあります。
ノートブックの使用方法、管理方法に関してはノートブックを参照ください。
ジョブ
ジョブはDatabricksでコードを実行するメカニズムの一つです。他のメカニズムにはノートブックがあります。
ジョブの使用方法、管理方法に関してはジョブを参照ください。
ライブラリ
ライブラリを用いることで、サードパーティあるいはローカルに構築したコードを、クラスターで動作するノートブックやジョブで利用できるようになります。
ライブラリの使用方法、管理方法に関してはライブラリを参照ください。
データ
Databricksワークスペースにマウントされた分散ファイルシステムにデータをインポートし、Databricksノートブックやクラスターで操作することができます。また、データにアクセスするためにさまざまなApache Sparkのデータソースを活用することができます。
データの管理方法、利用方法に関してはデータガイドをご覧ください。
Repos
ReposはリモートGitリポジトリと同期することで、コンテンツを共同バージョン管理することがができるDatabricksのフォルダーです。Databricksのリポジトリを活用することで、Databricksでノートブックを開発し、コラボレーション、バージョン管理のためにリモートのGitリポジトリを活用することができます。
詳細については、Databricks ReposによるGit連携をご覧ください。
モデル
モデルとはMLflowのモデルレジストリに登録されたモデルを指します。モデルレジストリは、MLflowモデルの完全なライフサイクルを管理できるようにする集中管理されたモデルストアです。モデルリネージュの時系列変化、モデルのバージョン管理、ステージの遷移、モデルとモデルバージョンの注釈、説明を可能にします。
モデルの管理、使用方法に関しては、DatabricksにおけるMLflowモデルレジストリをご覧ください。
エクスペリメント
MLflowのエクスペリメントは、MLflowの機械学習モデルトレーニング実行結果(ラン)を管理、アクセス制御するための主要な単位となります。全てのMLflowランはエクスペリメントに属します。それぞれのエクスペリメントで可視化、検索、ランの比較、そして、別のツールで使うためにランのアーティファクトやメタデータをダウンロードすることができます。
詳細については、エクスペリメントをご覧ください。