0
0

More than 1 year has passed since last update.

Databricks SQL : ユーザー向けクイックスタート

Last updated at Posted at 2021-05-24

Quickstart: Run and visualize a query | Databricks on AWS [2022/8/16時点]の翻訳です。

クイックスタート: クエリーの実行と可視化

Databricksクイックスタートガイドのコンテンツです。

このクイックスタートでは、人々の情報を格納したテーブルから、Maryという名前の女性を生まれた年でグルーピングし、グループごとの数をカウントし結果を可視化します。

テーブルのカラムは、idfirstNamemiddleNamelastNamegenderbirthDatessnsalaryとなります。

要件

Databricks SQLの管理者はDatabricks SQLの管理者向けクイックスタートを修了する必要があります。

Databricks SQLのUIを用いてテーブルをクエリーし、ビジュアライゼーションを作成する

サイドバーの使用

サイドバーからDatabricksの全てのアセットにアクセスできます。サイドバーのコンテンツは選択するペルソナ(Data Science & EngineeringMachine LearningSQL)によって決まります。

  • デフォルトではサイドバーは畳み込まれた状態で表示され、アイコンのみが表示されます。サイドバー上にカーソルを移動すると全体を表示することができます。
  • ペルソナを変更するには、Databricksロゴの直下にあるアイコンからペルソナを選択します。
  • 次回ログイン時に表示されるペルソナを固定するには、ペルソナの隣にあるをクリックします。再度クリックするとピンを削除することができます。
  • サイドバーの一番下にあるMenu optionsで、サイドバーの表示モードを切り替えることができます。Auto(デフォルト)、Expand(展開)、Collapse(畳み込み)から選択できます。

別のワークスペースに切り替える

同じアカウントにおいて1つ以上のワークスペースにアクセスできる場合、それらをクイックに切り替えることができます。

  1. Databricksワークスペースの左下にあるをクリックします。
  2. Workspacesで切り替えたいワークスペースを選択します。

ステップ1: Databricks SQLへのログイン

Databricks SQLにログインした際のランディングページは以下のようなものとなります。

Databricks Data Science & EngineeringやDatabricks Machine Learning環境が表示される場合には、Databricks SQLに切り替えるためにサイドバーを使用します。

ステップ2: peopleテーブルをクエリーする

Databricks SQL : 管理者向けクイックスタートでは、管理者がpeople10というテーブルを作成しています。このセクションでは、このテーブルにクエリーを実行し、Maryという名前のすべての人の誕生日と誕生年を表示します。

  1. サイドバーでCreateをクリックしQueryを選択します。

    SQLエディタが表示されます。

  2. Starter Warehous(あるいは好きなSQLウェアハウス)を選択します。

    最初のクエリーを作成する際、利用可能なSQLウェアハウスの一覧はアルファベット順で表示されます。次にクエリーを作成する際には、最後に使用したウェアハウスが選択されます。

  3. Maryという名前の女性の数をクエリーする以下のSELECT文を貼り付けます。

    SQL
    SELECT year(birthDate) as birthYear, count(*) AS total
    FROM default.people10m
    WHERE firstName = 'Mary' AND gender = 'F'
    GROUP BY birthYear
    ORDER BY birthYear
    
  4. Ctrl/Cmd + Enterを押すか、Executeボタンをクリックします。

    Limit 1000チェックボックスはデフォルトで選択されており、最大1000行の結果を返すようになっています。より多くの行を取得したい場合には、チェックボックスの選択を解除し、クエリーにLIMIT句を指定します。クエリーの実行結果はTableタブに表示されます。

  5. クエリーを保存するにはSaveをクリックします。

  6. Save queryテキストボックスでMarysを入力しSaveをクリックします。

ステップ3: ビジュアライゼーションの作成

  1. + Add Visualizationタブをクリックします。

    ビジュアライゼーションエディタが表示されます。

  2. ビジュアライゼーションの名前をMarys by birth yearに変更します。

  3. Visualization TypeドロップダウンでBarを選択します。

  4. X ColumnドロップダウンでbirthYearを選択します。

  5. Y Columnドロップダウンでtotalを選択します。

  6. X Axisタブをクリックします。

  7. NameフィールドにBirth Yearと入力します。

  8. Y Axisタブをクリックします。

  9. NameフィールドにNumber of Marys by Birth Yearと入力します。

  10. Saveをクリックします。
    保存したグラフがSQLエディタに表示されます。

ステップ4: ダッシュボードの作成

  1. サイドバーのCreateをクリックしDashboardを選択します。
  2. ダッシュボード名としてPeopleと入力します。
  3. Saveをクリックします。
  4. Addドロップダウンリストで、Visualizationをクリックします。
  5. Add visualization widgetMaryを選択します。
  6. Add to Dashboardをクリックします。
  7. Done Editingをクリックします。

次のステップ

  • 以下のいずれかを行うことで、豊富なビジュアライゼーションや再利用可能なレイアウトのスタート地点を提供するいくつかのサンプルダッシュボードを参照します。
    • Dashboardsの下にあるView galleryをクリックします。
    • https://<databricks-instance>/sql/dashboards/samplesにアクセスします。<databricks-instance>dbc-a1b2345c-d6e7.cloud.databricks.comのようなお使いのワークスペースインスタンス名で置き換えます。
  • 一般的なBIツールを用いてテーブルをクエリーし、ビジュアライゼーションを作成します。

Databricks SQLに接続したBIツールを用いてテーブルをクエリーし、ビジュアライゼーションを作成する

このセクションでは、どのようにしてDatabrikcs SQL情報を取得し、Power BIデスクトップ、TableauオンラインをSQLエンドポイントに接続し、それぞれのBIツールでpeopleテーブルをクエリーし、データを可視化すのかを説明します。

本章では以下を説明します。

Databricks SQL

このセクションでは、どのようにウェアハウスの接続情報を取得し、お使いのツールからDatabricks SQLの認証を得るためのトークンを生成するのかを説明します。

ステップ1: SQLウェアハウス接続情報詳細の取得

  1. Databricks SQLにログインします。
  2. サイドバーのSQL Warehousesをクリックします。
  3. ウェアハウス一覧で、フィルターボックスにStarterと入力します。
  4. Starter Warehouseリンクをクリックします。
  5. Connection Detailタブをクリックします。
  6. をクリックしてサーバーのホスト名とHTTPパスをコピーします。

ステップ2: パーソナルアクセストークンの取得

パーソナルアクセストークンを使用することでDatabricks SQLに対する認証を行うことができます。

  1. サイドバーの下にあるSettingsをクリックし、User Settingを選択します。
  2. Personal Access Tokensタブをクリックします。
  3. + Generate New Tokenをクリックします。
  4. 必要に応じてコメントを入力し、トークンの有効期限を設定します。
  5. Generateをクリックします。
  6. をクリックしてトークンをコピーしOKをクリックします。

Power BI

ステップ1: Power BIからDatabricks SQLへの接続設定

  1. Get Data > More… > Azureを選択し、Azure Databricksコネクターを選択します。

    注意
    ラベルにAzure Databricksとありますが、このコネクターはAWSのDatabricksでも動作します。

  2. Connectをクリックします。

  3. ステップ1: SQLウェアハウス接続情報詳細の取得でコピーしたホスト名とHTTPパスを入力します。

  4. OKをクリックします。

  5. 認証プロンプトにおいては、Personal Access Tokenタブを選択し、ステップ2: パーソナルアクセストークンの取得でコピーしたパーソナルアクセストークンを入力します。

  6. Connectをクリックします。

    SQLウェアハウスが動作していない場合、SQLエンドポイントが起動しますが起動に数分を要する場合があります。

  7. Power BIナビゲーターでdefault.people10mテーブルを選択します。

  8. Loadをクリックします。

ステップ2: データの整形

ファーストネームがMaryの女性のレコードを取得し、年ごとの人数をカウントします。

  1. firstNamegenderbirthDate以外の列を削除します。
  2. firstName = Marygender = Fでデータをフィルタリングします。
  3. birthDateの型をDateに変換し、年以外の構成要素を削除します。
  4. 年でグルーピングし、年ごとのMaryの人数をカウントします。

ステップ3: データの可視化

Tableauオンライン

ステップ1: TableauオンラインからDatabricks SQLへの接続設定

  1. Tableauオンラインで、ワークブックを開くか新たなノートブックを作成します。

  2. Data > New Data Sourceを選択します。

  3. Connect to Dataダイアログで、Connectors > Databricksを選択します。

  4. Databricks connectionダイアログで、ステップ1: SQLウェアハウス接続情報詳細の取得でコピーしたホスト名とHTTPパスを入力します。

  5. ステップ2: パーソナルアクセストークンの取得で取得したユーザー名とトークンとしてtokenを用いて認証を行います。

  6. Sign inをクリックします。

    SQLウェアハウスが動作していない場合、SQLエンドポイントが起動しますが起動に数分を要する場合があります。

  7. スキーマフィールドにdefaultと入力しEnterを押します。

  8. テーブルフィールドには、people10mと入力しEnterを押します。

  9. キャンバスにpeople10テーブルをドラッグします。

ステップ2: データの整形

  1. firstNamegenderbirthDate以外の列を削除します。
  2. firstName = Marygender = Fでデータをフィルタリングします。
  3. birthDateの型をDateに変換し、年以外の構成要素を削除します。
  4. 年でグルーピングし、年ごとのMaryの人数をカウントします。

ステップ3: データの可視化

Databricks 無料トライアル

Databricks 無料トライアル

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0