Databricks Community Edition https://community.cloud.databricks.com/ とはApache Sparkの開発元のDatabricksが提供するクラウド開発環境の無償版です。
アカウント作成
最近よくある他のアカウントでの登録は不可で直接登録が必要。Sign Upから。
環境
- CPU 0.88core, メモリ6GBとのこと。ファイル容量は私が調べた限りでは不明。
- Python, Scala, SQL, Rが使用可能
- Notebookスタイルでコードを実行
実行
クラスター作成
- 画面左側のClustersでクラスターを作成する。
- Create Clusterボタン
- Cluster Nameを入力
- Apache Spark Versionを選択
- 特に決めがなければ最新の Spark 2.0 (Scale 2.11) でよいのではないでしょうか。
- AWS環境を用いるようです。特に変更せず。
- Create Clusterボタン
- Active Clustersに先程作ったクラスターが表示されます。
- 最初Pendingとなり、数分後Runningとなります。
- Create Clusterボタン
- 画面左側のWorkspaceで実行環境を準備
- Workspaceペインが開くので Workspace - Create - Notebook を指定
- Create Notebookウィンドウが開くので
- Nameを入力
- LanguageでPython, Scala, SQL, Rが指定可能。ここではPython
- Clusterで先程作成したクラスターが選ばれている
- Createボタン
- コードの実行
- テキストボックスが表示されるのでそこにコードを入力する
- 改行で複数行を入力可
- 実行は Shift + Enter か Run All ボタン
- テキストボックスが表示されるのでそこにコードを入力する
チュートリアルの実行
A Gentle Introduction to Apache Spark on Databricks
- コードを順番に入力し実行すれば可能
- グラフは
- display(diamonds) を実行後
- 表の下の真ん中のグラフのボタンで Bar を選択
- 表の下の右の Plot Options... ボタンでグラフの設定画面となり、下記を指定
- Keys: cut
- Series groupings: color
- Values: price
- Aggregation: AVG
- フロー図は
- df2.count() を実行後
- 結果の Spark Jobs をクリック
- View をクリック
- Dag Visualization をクリック
- View をクリック
- グラフは
他のチュートリアルもありますが、Scalaのようで今回は略。よさそうなチュートリアルがあれば記事を追加します。