Databricks Community Edition で Notebook を立ち上げる

Databricks

Last updated at 2020-08-20Posted at 2020-02-25

はじめに

Databricks は、特に海外で破竹の勢いを見せるデータ分析基盤です。

データ分析のための統合プラットフォーム
2000 以上のグローバル企業がビッグデータおよび機械学習パイプラインの設計に活用
2020 Gartner Magic Quadrant で Leader に指名 (データサイエンス及び機械学習プラットフォーム分野)
Apache Spark、Delta Lake、MLflow の開発者が作っている

実ビジネスで利用するのであればアーキテクチャ構築や権限設計が必須ですが、オープンデータソースでまずは使用感を試したい方向けに無償プランが用意されています。有償版と無償版の違いは以下の通り (2020年2月時点)

本稿では無償版である Databricks Community Edition の登録から Notebook を立ち上げるまでの手順を示します。

アカウント作成

Try Databricks にアクセスして、GET STARTED をクリック

全ての項目を入力し、 Sign Up をクリック

しばらくするとこちらの画面に遷移します。

メアドに届いたメールのリンクに遷移し、パスワードを設定します(初回登録でも Reset Password になるようです)。

これで完了。すぐにコンソール画面が表示されます。

クラスタの作成

Home 画面より、New Cluster をクリック

Community Edition では Driver クラスタのみ。 Cluster Name は任意で設定します。Runtime Version については、既存アーキテクチャやスクリプトとの兼ね合いを検討する必要がないのであれば、デフォルト値で良いでしょう(2020年2月25日時点では 6.2)。
インスタンスは us-west に立ち上がるようです。どれかを選択して Create Cluster をクリック。

ちょっと待つとこちらのアイコンが緑になります。これで Cluster の準備完了です

Notebook の作成

トップ画面から New Notebook をクリックし、名称を任意で入力します。アカウントを作成したばかりであれば、先ほど作成したクラスタが選択されているはずです。Create をクリック。

すぐに Notebook の画面が出てきます。

さいごに

一定規模以上のデータを保持していて、その解析に Spark 使っているのであれば、現時点では Databricks 一択になるかと思います。普段 Jupyter Notebook で分析をしている方は触っておくだけでも損はないはず。

参考リンク

Databricks

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up