Databricksでbamboolibを使ってみる

Last updated at 2022-07-16Posted at 2022-07-15

今週は結構立て込んでいたので記事投稿のペースが落ちてました。すみません。

先日投稿したbamboolibの記事のウォークスルーをします。bamboolibを使うことで、ノーコードでデータフレームに対してさまざまな処理を行うことができます。また、その結果はPythonコードとして保存されるので、処理ロジックを転用することができます。

準備で必要なのはDatabricksランタイム11.0以降が稼働しているクラスターだけです。そのクラスターにノートブックをアタッチします。

ライブラリのインストール

bamboolibのインストールが必要です。クラスターライブラリとしてもインストールできますが、今日はクイックにノートブックスコープライブラリとしてインストールします。

%pip install bamboolib

ライブラリをインストール後に以下を実行します。

Python

import bamboolib as bam
bam

bamboolibのウィジェットが表示されます。

ダミーデータを用いたデータの操作

ここでは、最初からbamboolibが提供しているダミーデータを使用します。

Load dummy dataをクリックします。
Sales datasetを選択します。
Executeをクリックします。
データフレームとウィジェットが表示されます。
フィルタリングを行なってみます。Search actionsのボックスにフォーカスします。Filter rowsを選択します。
画面右でSelect rowsを選択します。
whereのセクションで、has value(s) のままChoose value(s) のボックスにフォーカスします。
Asiaを選択します。他の地域でも構いません。
Executeをクリックすることで、選択した処理が実行されます。この場合、regionがAsiaであるものに行がフィルタリングされます。

同様にソートやグルーピングなどアクションを選択することで、データフレームを簡単に操作することができます。

Pythonコードの活用

ここまでGUI(ウィジェット)でデータを操作してきましたが、仮にこのデータ操作(変換)のロジックをプログラムに組み込みたいと考えたとします。そういった場合でもbamboolibは役立ちます。ここまでGUIで操作してきた内容をbamboolibは全て記録しており、それを再現するためのPythonコードを自動で生成してくれます。

ウィジェットの下部に操作を再現するためのPythonコードが常に表示されるので、変換ロジックが確定したらCopy codeをクリックするとPythonコードをクリップボードにコピーすることができます。あとで別のプログラムに変換ロジックを組み込むことができます。

Databricks 無料トライアル

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up