More than 5 years have passed since last update.

お手軽気軽手ぶら無料！Databricks Community EditionでApache Sparkにダイビングする

Posted at 2016-09-23

Databricks Community Edition https://community.cloud.databricks.com/ とはApache Sparkの開発元のDatabricksが提供するクラウド開発環境の無償版です。

アカウント作成

最近よくある他のアカウントでの登録は不可で直接登録が必要。Sign Upから。

画面左側のClustersでクラスターを作成する。
- Create Clusterボタン
  - Cluster Nameを入力
  - Apache Spark Versionを選択
    - 特に決めがなければ最新の Spark 2.0 (Scale 2.11) でよいのではないでしょうか。
    - AWS環境を用いるようです。特に変更せず。
  - Create Clusterボタン
  - Active Clustersに先程作ったクラスターが表示されます。
    - 最初Pendingとなり、数分後Runningとなります。
画面左側のWorkspaceで実行環境を準備
- Workspaceペインが開くので Workspace - Create - Notebook を指定
- Create Notebookウィンドウが開くので
  - Nameを入力
  - LanguageでPython, Scala, SQL, Rが指定可能。ここではPython
  - Clusterで先程作成したクラスターが選ばれている
  - Createボタン
コードの実行
- テキストボックスが表示されるのでそこにコードを入力する
  - 改行で複数行を入力可
- 実行は Shift + Enter か Run All ボタン

他のチュートリアルもありますが、Scalaのようで今回は略。よさそうなチュートリアルがあれば記事を追加します。