こちらを実際に動かしてみます。
この連携によって、dataikuの計算資源とストレージをDatabricksが提供する形になります。
Databricks Partner Connectからの接続
事前にDataikuで使うカタログとスキーマを作成しておきます。ここでは、カタログdataiku
、スキーマconnect
を作成しておきます。
Partner Connectのdataikuのタイルをクリックします。
dataiku接続用のユーザー、パーソナルアクセストークン、計算資源が作成されます。
並行してdataikuのトライアルにサインアップしておきます。私は先にサインアップしましたが、この後の画面遷移でも自動でdataikuに移動するので、その際にサインアップでもいけるはずです。
NodesにDatabricks Partner Connectと表示されているはずです。
dataikuプロジェクトの実行
こちらの記事を参考にさせていただきます。
Blank projectを選択して、空のプロジェクトを作成します。
+ IMPORT YOUR FIRST DATASETをクリックします。
ここでは、COVID-19の感染者数のCSVファイルをドラッグ&ドロップします。
簡単な処理を実行します。上のメニューからFlowを選択します。
Sample / Filterを選択します。Output datasetで書き込み先のDatabricksのカタログとスキーマを指定します。CREATE RECIPEをクリックします。
100行にサンプリングすることにして、Runをクリックします。これによって、Databricksのクラスターで処理が行われ、Unity Catalog配下のテーブルとして結果が保存されます。
注意
この時点で権限不足のエラーが出る場合には、カタログエクスプローラで権限を確認して不足の権限を設定してください。
dataikuとDatabricksを組み合わせて、データからの価値導出にお役立てください!