LoginSignup
4
3

More than 5 years have passed since last update.

お手軽気軽手ぶら無料!Databricks Community EditionでApache Sparkにダイビングする

Posted at

Databricks Community Edition https://community.cloud.databricks.com/ とはApache Sparkの開発元のDatabricksが提供するクラウド開発環境の無償版です。

アカウント作成

最近よくある他のアカウントでの登録は不可で直接登録が必要。Sign Upから。

環境

  • CPU 0.88core, メモリ6GBとのこと。ファイル容量は私が調べた限りでは不明。
  • Python, Scala, SQL, Rが使用可能
  • Notebookスタイルでコードを実行

実行

クラスター作成

  • 画面左側のClustersでクラスターを作成する。
    • Create Clusterボタン
      • Cluster Nameを入力
      • Apache Spark Versionを選択
        • 特に決めがなければ最新の Spark 2.0 (Scale 2.11) でよいのではないでしょうか。
        • AWS環境を用いるようです。特に変更せず。
      • Create Clusterボタン
      • Active Clustersに先程作ったクラスターが表示されます。
        • 最初Pendingとなり、数分後Runningとなります。
  • 画面左側のWorkspaceで実行環境を準備
    • Workspaceペインが開くので Workspace - Create - Notebook を指定
    • Create Notebookウィンドウが開くので
      • Nameを入力
      • LanguageでPython, Scala, SQL, Rが指定可能。ここではPython
      • Clusterで先程作成したクラスターが選ばれている
      • Createボタン
  • コードの実行
    • テキストボックスが表示されるのでそこにコードを入力する
      • 改行で複数行を入力可
    • 実行は Shift + Enter か Run All ボタン

チュートリアルの実行

A Gentle Introduction to Apache Spark on Databricks

  • コードを順番に入力し実行すれば可能
    • グラフは
      • display(diamonds) を実行後
      • 表の下の真ん中のグラフのボタンで Bar を選択
      • 表の下の右の Plot Options... ボタンでグラフの設定画面となり、下記を指定
        • Keys: cut
        • Series groupings: color
        • Values: price
        • Aggregation: AVG
    • フロー図は
      • df2.count() を実行後
      • 結果の Spark Jobs をクリック
        • View をクリック
          • Dag Visualization をクリック

他のチュートリアルもありますが、Scalaのようで今回は略。よさそうなチュートリアルがあれば記事を追加します。

4
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
3