Databricksを使い始めた際に最初に体験すべき流れをステップバイステップで説明するシリーズです。「◯◯をしたい!」というケースもカバーしていきます。
こちらは、Databricksの環境構築が終わった後に体験いただく手順となります。環境構築の手順に関してはこちらを参照ください。
Databricksの登場人物と主要機能を理解する
Databricksには大きく分けて管理者とユーザーが存在します。管理者が環境の設定を行い、ユーザーが環境を利用するという分担になります。
-
アカウントオーナー(Account Owner): Databricksのアカウント全体を管理する最も強い権限を持つ管理者です。ワークスペースの作成、削除などを行うことができます。多くの場合、IT部門の管理責任者がアカウントオーナーになります。
- アカウント管理者(Account Admin): アカウントオーナーから権限を移譲される管理者です。アカウントオーナーと同等の権限を持ちます。
- ワークスペース管理者(Workspace Admin): ワークスペースごとの管理者です。下のユーザーに管理権限を与えることでワークスペース管理者になります。ワークスペース上の資産に対する完全な権限を持ちます。多くの場合、IT部門のインフラエンジニア、あるいはデータ分析部門のインフラ管理担当者がワークスペース管理者になります。
- ユーザー(User): ワークスペースにアクセスしてDatabricksの機能を利用するユーザーです。機械学習モデルを構築するデータサイエンティスト、データパイプラインを構築するデータエンジニア、BIダッシュボードを作成するデータアナリストなどが該当します。
以降で説明する手順および機能と上記登場人物のとの関連付けを以下に示します。
手順 | 機能 | アカウントオーナー | ワークスペース管理者 | ユーザー(データサイエンティスト) | ユーザー(データエンジニア) | ユーザー(データアナリスト) |
---|---|---|---|---|---|---|
Databricks環境を準備する |
|
○ | ○ | |||
ユーザーを招待する |
|
○ | ||||
Databricksワークスペースにログインする |
|
○ | ○ | ○ | ||
グループを管理する |
|
○ | ||||
ワークスペースの画面に慣れる |
|
○ | ○ | ○ | ○ | ○ |
ライブラリをインストールする | ○ | ○ | ○ | |||
データにアクセスする |
|
○ | ○ | ○ | ○ | |
PySparkの操作に慣れる |
|
○ | ○ | |||
機械学習モデルをトレーニングする |
|
○ | ||||
ダッシュボードを作成する |
|
○ | ||||
画像を取り扱う |
|
○ | ○ |
Databricks環境を準備する
Databricksの管理者が行う主な作業、その際に必要な機能を紹介します。
対象者 アカウントオーナー、ワークスペース管理者
ユーザーを招待する
Databricksをユーザーとして利用するには、管理者からワークスペースに招待してもらう必要があります。招待する手順、招待されたユーザーが利用を開始するまでの手順を紹介します。
対象者 ワークスペース管理者、ユーザー
招待されたユーザーの方は以下の手順から実施してください。
グループを管理する
部署、役割ごとにユーザーをまとめることができるグループに関して説明します。
対象者 ワークスペース管理者
ワークスペースの画面に慣れる
Databricksの用語、Databricksワークスペースの基本的な操作方法に慣れます。
対象者 ユーザー
ノートブックの操作に慣れる
Databricksノートブックの基本的な操作方法に慣れます。
対象者 ユーザー
ライブラリをインストールする
Databricksノートブックで使用するサードパーティのライブラリをインストールします。
対象者 ユーザー
データにアクセスする
Databricksのデータベースの操作方法を体感します。
対象者 ユーザー
参考資料
- Databricksのデータベースを可能な限りわかりやすく解説
- Databricksにおけるデータベースおよびテーブル
- データエンジニアとしてDatabricksを使い始める
- Databricksのサンプルデータ
ローカルからアップロードしたデータにアクセスする
ローカルからファイルをアップロードしてDatabricks上からデータにアクセスする手順です。
サンプルデータにアクセスする
Databricks環境に準備されているサンプルデータにアクセスします。
対象者 ユーザー
PySparkの操作に慣れる
SparkのPython APIであるPySparkの基本的な操作に慣れます。
対象者 ユーザー
機械学習モデルをトレーニングする
scikit-learnを用いた機械学習モデルのトレーニングの手順を説明します。
対象者 ユーザー
ダッシュボードを作成する
Databricks SQLを活用してBIダッシュボードを作成する手順を説明します。
対象者 ユーザー
画像を取り扱う
Databricksで画像ファイルを取り扱う手順を説明します。
対象者 ユーザー