3
3

More than 1 year has passed since last update.

今週は結構立て込んでいたので記事投稿のペースが落ちてました。すみません。

先日投稿したbamboolibの記事のウォークスルーをします。bamboolibを使うことで、ノーコードでデータフレームに対してさまざまな処理を行うことができます。また、その結果はPythonコードとして保存されるので、処理ロジックを転用することができます。

準備で必要なのはDatabricksランタイム11.0以降が稼働しているクラスターだけです。そのクラスターにノートブックをアタッチします。

Screen Shot 2022-07-15 at 20.47.37.JPG

ライブラリのインストール

bamboolibのインストールが必要です。クラスターライブラリとしてもインストールできますが、今日はクイックにノートブックスコープライブラリとしてインストールします。

%pip install bamboolib

ライブラリをインストール後に以下を実行します。

Python
import bamboolib as bam
bam

bamboolibのウィジェットが表示されます。
Screen Shot 2022-07-15 at 20.51.39.JPG

ダミーデータを用いたデータの操作

ここでは、最初からbamboolibが提供しているダミーデータを使用します。

  1. Load dummy dataをクリックします。
  2. Sales datasetを選択します。
    Screen Shot 2022-07-15 at 20.54.52.JPG
  3. Executeをクリックします。
    Screen Shot 2022-07-15 at 20.56.21.JPG
  4. データフレームとウィジェットが表示されます。
    Screen Shot 2022-07-15 at 20.58.18.JPG
  5. フィルタリングを行なってみます。Search actionsのボックスにフォーカスします。Filter rowsを選択します。
    Screen Shot 2022-07-15 at 21.01.08.JPG
  6. 画面右でSelect rowsを選択します。
    Screen Shot 2022-07-15 at 21.01.50.JPG
  7. whereのセクションで、has value(s) のままChoose value(s) のボックスにフォーカスします。
  8. Asiaを選択します。他の地域でも構いません。
    Screen Shot 2022-07-15 at 21.04.15.JPG
  9. Executeをクリックすることで、選択した処理が実行されます。この場合、regionAsiaであるものに行がフィルタリングされます。
    Screen Shot 2022-07-15 at 21.05.58.JPG

同様にソートやグルーピングなどアクションを選択することで、データフレームを簡単に操作することができます。

Pythonコードの活用

ここまでGUI(ウィジェット)でデータを操作してきましたが、仮にこのデータ操作(変換)のロジックをプログラムに組み込みたいと考えたとします。そういった場合でもbamboolibは役立ちます。ここまでGUIで操作してきた内容をbamboolibは全て記録しており、それを再現するためのPythonコードを自動で生成してくれます。

ウィジェットの下部に操作を再現するためのPythonコードが常に表示されるので、変換ロジックが確定したらCopy codeをクリックするとPythonコードをクリップボードにコピーすることができます。あとで別のプログラムに変換ロジックを組み込むことができます。
Screen Shot 2022-07-15 at 21.09.30.JPG

Databricks 無料トライアル

Databricks 無料トライアル

3
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
3
3