はじめに
Databricks は、特に海外で破竹の勢いを見せるデータ分析基盤です。
- データ分析のための統合プラットフォーム
- 2000 以上のグローバル企業がビッグデータおよび機械学習パイプラインの設計に活用
- 2020 Gartner Magic Quadrant で Leader に指名 (データサイエンス及び機械学習プラットフォーム分野)
- Apache Spark、Delta Lake、MLflow の開発者が作っている
実ビジネスで利用するのであればアーキテクチャ構築や権限設計が必須ですが、オープンデータソースでまずは使用感を試したい方向けに無償プランが用意されています。有償版と無償版の違いは以下の通り (2020年2月時点)
本稿では無償版である Databricks Community Edition の登録から Notebook を立ち上げるまでの手順を示します。
アカウント作成
Try Databricks にアクセスして、GET STARTED をクリック
メアドに届いたメールのリンクに遷移し、パスワードを設定します(初回登録でも Reset Password になるようです)。
クラスタの作成
Community Edition では Driver クラスタのみ。 Cluster Name は任意で設定します。Runtime Version については、既存アーキテクチャやスクリプトとの兼ね合いを検討する必要がないのであれば、デフォルト値で良いでしょう(2020年2月25日 時点では 6.2)。
インスタンスは us-west に立ち上がるようです。どれかを選択して Create Cluster をクリック。
ちょっと待つとこちらのアイコンが緑になります。これで Cluster の準備完了です
Notebook の作成
トップ画面から New Notebook をクリックし、名称を任意で入力します。アカウントを作成したばかりであれば、先ほど作成したクラスタが選択されているはずです。Create をクリック。
さいごに
一定規模以上のデータを保持していて、その解析に Spark 使っているのであれば、現時点では Databricks 一択になるかと思います。普段 Jupyter Notebook で分析をしている方は触っておくだけでも損はないはず。