LoginSignup
4
2

Databricksノートブックのウォークスルーおよびベストプラクティス

Last updated at Posted at 2024-05-27

こちらで説明されているものを主にウォークスルーしていきます。色々な機能がありますが、これらを使いこなすことでより効率的に作業を進めることができます。

Databricksノートブックでコードを開発する | Databricks on AWS

Databricksの使い方

大まかな説明ですが、ノートブックにロジックを記述し、計算資源を用いてデータベースやファイルのデータを操作するというのがDatabricksの基本的な使い方となります。
Screenshot 2024-05-27 at 13.06.15.png

Databricksの計算資源はクラスター(ウェアハウス)、データはUnity Catalogで管理されています。
Screenshot 2024-05-27 at 13.07.27.png

作業場所はワークスペースと呼びます。サイドメニューを用いて主要機能にアクセスし、設定画面に移動するには右上のユーザーアイコンをクリックして、設定を選択します。
Screenshot 2024-05-27 at 13.09.10.png

ノートブックにロジックを記述します。ノートブックのUIの詳細は後ほど説明します。
Screenshot 2024-05-27 at 13.12.19.png

計算資源であるクラスターを設定します。
Screenshot 2024-05-27 at 13.13.14.png

ベストプラクティス
Databricksにおける一番無駄なコストは「使っていないクラスターを起動しておく」ことです。自動停止の設定を活用しましょう。

ノートブックをクラスターにアタッチすることで、プログラムを実行できる様になります。
Screenshot 2024-05-27 at 13.14.08.png

ベストプラクティス
プログラムを実行する際にのみクラスターが必要となります。プログラムの修正を行う際はクラスターは不要です。

これでPython/SQLなどのプログラムを実行できます。
Screenshot 2024-05-27 at 13.14.53.png

Databricksのノートブックのウォークスルーおよびベストプラクティス

ここではノートブック活用の文脈でのベストプラクティスをご紹介します。

ユーザー設定

生産性の観点では自分の使いやすい様に環境を設定することが重要です。

まずは言語設定を日本語にしましょう。
Screenshot 2024-05-27 at 13.16.26.png

この他に開発者メニューで細かい挙動を設定することができます。
Screenshot 2024-05-27 at 13.16.53.png
Screenshot 2024-05-27 at 13.17.37.png
Screenshot 2024-05-27 at 13.17.51.png
Screenshot 2024-05-27 at 13.18.04.png

ベストプラクティス
結構な頻度で実験的な機能は追加されていきます。定期的にチェックしてみてください。

検索機能

他の方の資産を参考にすることは、習熟の早道です。Databricksの検索機能を活用しましょう。アクセス権を有している資産に対してキーワード、自然言語を用いた検索を行うことができます。種別、所有者などで絞り込むことができます。

Screenshot 2024-05-27 at 13.20.02.png
Screenshot 2024-05-27 at 13.20.47.png
Screenshot 2024-05-27 at 13.20.55.png

ノートブックの活用

ノートブックにはいろいろな機能が搭載されています。
Screenshot 2024-05-27 at 13.22.08.png

お気に入り

後からクイックにアクセスできるようになります。

Screenshot 2024-05-27 at 13.23.23.png

ベストプラクティス
お気に入りはノートブック以外のフォルダ、データベース、テーブル、モデルなどでも設定できます。

並び替え

ドラッグ&ドロップでセルの位置を変更できます。

折り畳み

マークダウンの見出しに基づいたセクションを折り畳みできます。

レイアウト変更

中央揃え・全幅レイアウトを変更できます。
Screenshot 2024-05-27 at 13.28.46.png

フォーカスモード

特定のセルとのその出力のみを表示します。
Screenshot 2024-05-27 at 13.29.16.png

ベストプラクティス
特定のセルにフォーカスできるので、複雑なロジックに集中したい場合には活用しましょう。

マークダウン

他の方がロジックを理解できる様に説明文を記載します。
Screenshot 2024-05-27 at 13.30.22.png

ベストプラクティス
セルの先頭に%mdを記述、あるいは言語セレクターでマークダウンを記述できます。

目次

マークダウンの見出しに基づいた目次が生成されます。
Screenshot 2024-05-27 at 13.31.31.png

セルタイトル

ベストプラクティス
セルタイトルの隣のアシスタントボタンでタイトルを自動生成できます。

Screenshot 2024-05-27 at 13.32.26.png

なお、ノートブックタイトルも自動生成できます。
Screenshot 2024-05-27 at 14.37.13.png

セルメニュー

セルに対するアクションを選択します。
Screenshot 2024-05-27 at 13.32.50.png

実行メニュー

セルの実行に関するメニューを選択できます。
Screenshot 2024-05-27 at 13.33.31.png

バージョン管理

過去のバージョンに遡ることができます。差分も確認できます。
Screenshot 2024-05-27 at 13.34.02.png

ワークスペースエクスプローラ

他のノートブックやファイルにクイックにアクセスできます。
Screenshot 2024-05-27 at 13.34.46.png

カタログエクスプローラ

データベースやテーブルにクイックにアクセスできます。
Screenshot 2024-05-27 at 13.35.14.png

AIアシスタント

コーディングの手助けをしてくれます。
Screenshot 2024-05-27 at 13.36.17.png

コンテキストを認識するAIアシスタント、Databricks Assistantの紹介 | Databricks Blog

変数エクスプローラ

定義済みの変数を確認できます。目のマークをクリックするとデータを確認できます。
Screenshot 2024-05-27 at 13.36.48.png

Databricks Notebooks向けの新しいデバッグ機能:Variable Explorer | Databricks Blog

コードのフォーマット

Python/SQLのフォーマットを整形することができます。
Screenshot 2024-05-27 at 13.37.24.png

ターミナル

クイックにシェルコマンドを実行できます。
Screenshot 2024-05-27 at 13.37.52.png

マジックコマンド

セルからでもクイックにシェルコマンドを実行できます。
Screenshot 2024-05-27 at 13.38.18.png

可視化

データフレームにdisplay()を適用しましょう。
Screenshot 2024-05-27 at 13.52.43.png
Screenshot 2024-05-27 at 13.53.27.png

コラボレーション

アクセス権の設定

Databricksのワークスペースの資産は、アクセス権を適切に設定することで容易に他のユーザーに共有することができます。
Screenshot 2024-05-27 at 13.39.21.png
Screenshot 2024-05-27 at 13.39.41.png
Screenshot 2024-05-27 at 13.39.55.png

共有されたノートブックは同時に参照、(権限が付与されていれば)編集を行うことができます。
Screenshot 2024-05-27 at 13.40.13.png

参考資料

はじめてのDatabricks

はじめてのDatabricks

Databricks無料トライアル

Databricks無料トライアル

4
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
2