今週は結構立て込んでいたので記事投稿のペースが落ちてました。すみません。
先日投稿したbamboolibの記事のウォークスルーをします。bamboolibを使うことで、ノーコードでデータフレームに対してさまざまな処理を行うことができます。また、その結果はPythonコードとして保存されるので、処理ロジックを転用することができます。
準備で必要なのはDatabricksランタイム11.0以降が稼働しているクラスターだけです。そのクラスターにノートブックをアタッチします。
ライブラリのインストール
bamboolibのインストールが必要です。クラスターライブラリとしてもインストールできますが、今日はクイックにノートブックスコープライブラリとしてインストールします。
%pip install bamboolib
ライブラリをインストール後に以下を実行します。
import bamboolib as bam
bam
ダミーデータを用いたデータの操作
ここでは、最初からbamboolibが提供しているダミーデータを使用します。
- Load dummy dataをクリックします。
-
Sales datasetを選択します。
-
Executeをクリックします。
- データフレームとウィジェットが表示されます。
- フィルタリングを行なってみます。Search actionsのボックスにフォーカスします。
Filter rows
を選択します。
- 画面右でSelect rowsを選択します。
- whereのセクションで、has value(s) のままChoose value(s) のボックスにフォーカスします。
-
Asia
を選択します。他の地域でも構いません。
-
Executeをクリックすることで、選択した処理が実行されます。この場合、regionが
Asia
であるものに行がフィルタリングされます。
同様にソートやグルーピングなどアクションを選択することで、データフレームを簡単に操作することができます。
Pythonコードの活用
ここまでGUI(ウィジェット)でデータを操作してきましたが、仮にこのデータ操作(変換)のロジックをプログラムに組み込みたいと考えたとします。そういった場合でもbamboolibは役立ちます。ここまでGUIで操作してきた内容をbamboolibは全て記録しており、それを再現するためのPythonコードを自動で生成してくれます。
ウィジェットの下部に操作を再現するためのPythonコードが常に表示されるので、変換ロジックが確定したらCopy codeをクリックするとPythonコードをクリップボードにコピーすることができます。あとで別のプログラムに変換ロジックを組み込むことができます。