こちらのマニュアルの翻訳にも記載がありますが、あらためて説明をまとめてみました。
こちらのブログ記事でも詳細を説明しています。
注意
2024/4/10時点の内容です。機能追加やユーザビリティ改善によってGUIが変更されることがあります。
はじめに
Databricksを操作する際、ユーザーの方はワークスペースで作業することになります。
ワークスペースでは、Jupyter notebookと同様の(色々拡張されていますが)ノートブックを用いて、様々なロジックを記述します。これらのノートブックはフォルダに格納することで整理することができます。
また、ノートブックに記述したロジックを実行するには、計算資源であるクラスターが必要となります。要件に応じて様々な設定のクラスターを作成することができます。ノートブックを稼働中のクラスターにアタッチすることで、処理を実行できるようになります。
そして、Databricksで取り扱うデータは、カタログやデータベースで管理することが可能です。
Databricksワークスペースにはこれ以外の機能もありますが、本書では上述の機能にフォーカスして関連する画面を説明します。
ワークスペースのランディングページ
Databricksにログインすると以下のようなページが表示されます。これがランディングページです。
言語の変更
デフォルト言語が英語なので、日本語に切り替えます。
- 画面右上の自分のメールアドレスをクリックしてメニューを展開します。
-
User Settingsをクリックします。
- 設定画面に移動します。Preferencesをクリックします。
-
Languageから日本語を選択します。
- GUIが日本語になりました。
- 画面右上のdatabricksロゴをクリックして、ランディングページに戻ります。
サイドメニュー
画面左に縦長に配置されているのがサイドメニューです。こちらから主要な機能にアクセスします。
サイドメニュー上にカーソルを移動すると、メニューが展開されます。なおこの挙動はメニューの一番下にあるメニューを展開/メニューを折りたたむで変更することができます。
今回触れるメニュー項目は以下の通りとなります。
各メニュー項目を説明する前に、ランディングページの他のコンポーネントを説明します。
検索ボックス
アクセス権があるノートブック、フォルダなどを検索することができます。ボックスにタイプしてくと候補が表示されます。
Enterを押すことで詳細画面が開きます。検索結果のリンクをクリックすることで当該ノートブックなどを開くことができます。
ユーザー設定
画面右上の自分のメールアドレスをクリックするとメニューが展開し、ユーザー設定にアクセスすることができます。
ヘルプ
ユーザー名の左のクエスチョンマークをクリックすると、アシスタント、ヘルプセンター、ドキュメントなどにアクセスすることができます。
サンプル・チュートリアル
画面上部にあるリンクは、Databricksを使い始めた際に利用することが多い機能のサンプルなどを説明しています。
最近のアイテム
最近アクセスしたノートブックなどにクイックにアクセスすることができます。
お気に入り
人気の
ワークスペースで頻繁にアクセスされているアイテムを参照できます。
ワークスペースの詳細はこちらをご覧ください。
新規ボタン
サイドメニューの新規をクリックすると、様々なDatabricks資産をクイックに作成することができます。ボタンをクリックするとメニューが展開されるので、作成したい資産を選択します。それぞれの資産の作成ダイアログが表示されるか、作成画面に移動します。
ワークスペース
皆様が開発されるノートブックなどをフォルダに整理することができます。フォルダ階層にアクセスする際にはワークスペースをクリックします。
(あなたを含む)各ユーザーのフォルダはUsers配下に作成されます。Usersフォルダをクリックすると、ワークスペースの全ユーザーのホームフォルダが表示されます。なお、アクセス権がない場合は表示されません。あなたのホームフォルダは常に一番上に表示されます。
自分のユーザー名(メールアドレス)をクリックすると、あなたのホームフォルダが表示されます。なお、自分のホームフォルダにはツリーの最上位にあるホームでショートカットすることができます。
フォルダ内のノートブックをクリックすることで、ノートブックをオープンすることができます。
また、フォルダやノートブックの右側には常にが表示されています。これはコンテキストメニューを開くためのアイコンです。こちらをクリックするとフォルダやノートブックを操作するためのメニューが表示されます。右クリックでこの操作をショートカットすることができます。
クラスター
上述したように、Databricksで処理を実行するにはクラスターが必要です。サイドメニューのクラスターをクリックすると、アクセスできるクラスターの一覧が表示されます。
- コンピューティングを作成をクリックします。
- クラスター設定画面が表示されます。
- 必要に応じて設定を変更し、画面下のクラスターを作成をクリックします。
- クラスターが起動するまで待ちます。通常数分かかります。クラスター名の右にあるインジケーターがグリーンになるとクラスターが起動したことを意味します。
- これでクラスターが起動しました。
あと、少しクラスター設定画面の説明もします。
ライブラリ
-
ライブラリをクリックすると、この画面からクラスターにライブラリをインストールすることができます。
- PyPI/CRAN/Mavenなどからライブラリをインストールすることができます。
- インストール済みの状態になると、クラスターにアタッチされているノートブックから
import
できるようになります。
イベントログ
クラスターの起動、停止、サイズ変更などのイベントを確認することができます。
クラスターの停止
クラスターが起動している時間でDatabricksの課金が発生します。クラスターを使わなくなったら、終了でクラスターを停止します。
クラスター名の隣に灰色の●が表示されたらクラスターが停止したことを意味します。
クラスターの詳細はこちらをご覧ください。
ノートブック
ノートブックを作成するか、既存のノートブックを開くと、画面全体にノートブックが表示されます。ノートブックを表示した際には、ノートブック専用のメニューが表示されます。
ノートブックの詳細に関してはこちらをご覧ください。
タイトル・言語の変更
タイトルをクリックすると名称を変更、Python
などの言語名をクリックするとノートブックのデフォルト言語を切り替えることができます。
ノートブックメニュー
- タイトルの下にはノートブックを操作するメニューが表示されます。
-
すべてを実行をクリックすると、ノートブックのすべてのコマンドが実行されます。
-
接続と表示されているボタンをクリックすると、ノートブックをアタッチするクラスターを選択することができます。
- クラスターを選択するとボタン名称がクラスター名に変化します。これでノートブックを実行できるようになります。
- ノートブック左のボタンをクリックすると、目次、ワークスペース、カタログ、アシスタントが展開されます。
- ノートブック右のボタンをクリックすると、上からコメント、エクスペリメント、改訂履歴、変数、ライブラリが表示されます。
ノートブックの操作
ノートブックはセルから構成され、セルにロジックやマークダウンを記述します。
ここでは、pandasでデータを読み込んで可視化してみます。
-
最初のセルに以下の内容を記述します。
import pandas as pd white_wine = pd.read_csv("/dbfs/databricks-datasets/wine-quality/winequality-white.csv", sep=";")
-
セルを追加するには、セルの上下端にカーソルを移動し、+コード / +テキスト ボタンを表示させます。これをクリックすることでセルを挿入することができます。
-
追加したセルに以下の内容を記述します。
Python# 中身を確認します display(white_wine)
-
個々のセルを実行するには、セルの左端に表示されている▶️ボタンを使用します。なお、Shift + Enterでショートカットすることができます。
カタログ
サイドメニューのカタログを選択すると、カタログエクスプローラが表示されます。
テーブル名をクリックすることで、テーブルのスキーマやサンプルデータを確認することができます。
カタログエクスプローラの詳細はこちらをご覧ください。
基本的な画面のご案内は以上となります。