こちらで説明されているものを主にウォークスルーしていきます。色々な機能がありますが、これらを使いこなすことでより効率的に作業を進めることができます。
Databricksノートブックでコードを開発する | Databricks on AWS
Databricksの使い方
大まかな説明ですが、ノートブックにロジックを記述し、計算資源を用いてデータベースやファイルのデータを操作するというのがDatabricksの基本的な使い方となります。
Databricksの計算資源はクラスター(ウェアハウス)、データはUnity Catalogで管理されています。
作業場所はワークスペースと呼びます。サイドメニューを用いて主要機能にアクセスし、設定画面に移動するには右上のユーザーアイコンをクリックして、設定を選択します。
ノートブックにロジックを記述します。ノートブックのUIの詳細は後ほど説明します。
ベストプラクティス
Databricksにおける一番無駄なコストは「使っていないクラスターを起動しておく」ことです。自動停止の設定を活用しましょう。
ノートブックをクラスターにアタッチすることで、プログラムを実行できる様になります。
ベストプラクティス
プログラムを実行する際にのみクラスターが必要となります。プログラムの修正を行う際はクラスターは不要です。
Databricksのノートブックのウォークスルーおよびベストプラクティス
ここではノートブック活用の文脈でのベストプラクティスをご紹介します。
ユーザー設定
生産性の観点では自分の使いやすい様に環境を設定することが重要です。
この他に開発者メニューで細かい挙動を設定することができます。
ベストプラクティス
結構な頻度で実験的な機能は追加されていきます。定期的にチェックしてみてください。
検索機能
他の方の資産を参考にすることは、習熟の早道です。Databricksの検索機能を活用しましょう。アクセス権を有している資産に対してキーワード、自然言語を用いた検索を行うことができます。種別、所有者などで絞り込むことができます。
ノートブックの活用
お気に入り
後からクイックにアクセスできるようになります。
ベストプラクティス
お気に入りはノートブック以外のフォルダ、データベース、テーブル、モデルなどでも設定できます。
並び替え
ドラッグ&ドロップでセルの位置を変更できます。
折り畳み
マークダウンの見出しに基づいたセクションを折り畳みできます。
レイアウト変更
フォーカスモード
ベストプラクティス
特定のセルにフォーカスできるので、複雑なロジックに集中したい場合には活用しましょう。
マークダウン
ベストプラクティス
セルの先頭に%md
を記述、あるいは言語セレクターでマークダウンを記述できます。
目次
セルタイトル
ベストプラクティス
セルタイトルの隣のアシスタントボタンでタイトルを自動生成できます。
セルメニュー
実行メニュー
バージョン管理
ワークスペースエクスプローラ
カタログエクスプローラ
AIアシスタント
コンテキストを認識するAIアシスタント、Databricks Assistantの紹介 | Databricks Blog
変数エクスプローラ
定義済みの変数を確認できます。目のマークをクリックするとデータを確認できます。
Databricks Notebooks向けの新しいデバッグ機能:Variable Explorer | Databricks Blog
コードのフォーマット
Python/SQLのフォーマットを整形することができます。
ターミナル
マジックコマンド
可視化
コラボレーション
アクセス権の設定
Databricksのワークスペースの資産は、アクセス権を適切に設定することで容易に他のユーザーに共有することができます。
共有されたノートブックは同時に参照、(権限が付与されていれば)編集を行うことができます。
参考資料
- Databricksノートブックでコードを開発する | Databricks on AWS
- Databricksベストプラクティス:ノートブックのモジュール化
- Databricksアシスタントの新機能を試す
- Databricksのインタラクティブデバッガー
- プロの様にDatabricksをナビゲートする