Quickstart: Run and visualize a query | Databricks on AWS [2022/8/16時点]の翻訳です。
クイックスタート: クエリーの実行と可視化
Databricksクイックスタートガイドのコンテンツです。
このクイックスタートでは、人々の情報を格納したテーブルから、Mary
という名前の女性を生まれた年でグルーピングし、グループごとの数をカウントし結果を可視化します。
テーブルのカラムは、id
、firstName
、middleName
、lastName
、gender
、birthDate
、ssn
、salary
となります。
要件
Databricks SQLの管理者はDatabricks SQLの管理者向けクイックスタートを修了する必要があります。
Databricks SQLのUIを用いてテーブルをクエリーし、ビジュアライゼーションを作成する
- サイドバーの使用
- ステップ1: Databricks SQLにログインする
- ステップ2: peopleテーブルをクエリーする
- ステップ3: ビジュアライゼーションの作成
- ステップ4: ダッシュボードの作成
- 次のステップ
サイドバーの使用
サイドバーからDatabricksの全てのアセットにアクセスできます。サイドバーのコンテンツは選択するペルソナ(Data Science & Engineering、Machine Learning、SQL)によって決まります。
- デフォルトではサイドバーは畳み込まれた状態で表示され、アイコンのみが表示されます。サイドバー上にカーソルを移動すると全体を表示することができます。
- ペルソナを変更するには、Databricksロゴの直下にあるアイコンからペルソナを選択します。
- 次回ログイン時に表示されるペルソナを固定するには、ペルソナの隣にあるをクリックします。再度クリックするとピンを削除することができます。
- サイドバーの一番下にあるMenu optionsで、サイドバーの表示モードを切り替えることができます。Auto(デフォルト)、Expand(展開)、Collapse(畳み込み)から選択できます。
別のワークスペースに切り替える
同じアカウントにおいて1つ以上のワークスペースにアクセスできる場合、それらをクイックに切り替えることができます。
ステップ1: Databricks SQLへのログイン
Databricks SQLにログインした際のランディングページは以下のようなものとなります。
Databricks Data Science & EngineeringやDatabricks Machine Learning環境が表示される場合には、Databricks SQLに切り替えるためにサイドバーを使用します。
ステップ2: peopleテーブルをクエリーする
Databricks SQL : 管理者向けクイックスタートでは、管理者がpeople10
というテーブルを作成しています。このセクションでは、このテーブルにクエリーを実行し、Maryという名前のすべての人の誕生日と誕生年を表示します。
-
サイドバーでCreateをクリックしQueryを選択します。
SQLエディタが表示されます。
-
Starter Warehous(あるいは好きなSQLウェアハウス)を選択します。
最初のクエリーを作成する際、利用可能なSQLウェアハウスの一覧はアルファベット順で表示されます。次にクエリーを作成する際には、最後に使用したウェアハウスが選択されます。
-
Mary
という名前の女性の数をクエリーする以下のSELECT文を貼り付けます。SQLSELECT year(birthDate) as birthYear, count(*) AS total FROM default.people10m WHERE firstName = 'Mary' AND gender = 'F' GROUP BY birthYear ORDER BY birthYear
-
Ctrl/Cmd + Enterを押すか、Executeボタンをクリックします。
Limit 1000チェックボックスはデフォルトで選択されており、最大1000行の結果を返すようになっています。より多くの行を取得したい場合には、チェックボックスの選択を解除し、クエリーに
LIMIT
句を指定します。クエリーの実行結果はTableタブに表示されます。
-
クエリーを保存するにはSaveをクリックします。
-
Save queryテキストボックスでMarysを入力しSaveをクリックします。
ステップ3: ビジュアライゼーションの作成
-
+ Add Visualizationタブをクリックします。
-
ビジュアライゼーションの名前をMarys by birth yearに変更します。
-
Visualization TypeドロップダウンでBarを選択します。
-
X ColumnドロップダウンでbirthYearを選択します。
-
Y Columnドロップダウンでtotalを選択します。
-
X Axisタブをクリックします。
-
Nameフィールドに
Birth Year
と入力します。 -
Y Axisタブをクリックします。
-
Nameフィールドに
Number of Marys by Birth Year
と入力します。
ステップ4: ダッシュボードの作成
- サイドバーのCreateをクリックしDashboardを選択します。
- ダッシュボード名として
People
と入力します。 - Saveをクリックします。
- Addドロップダウンリストで、Visualizationをクリックします。
-
Add visualization widgetでMaryを選択します。
- Add to Dashboardをクリックします。
-
Done Editingをクリックします。
次のステップ
- 以下のいずれかを行うことで、豊富なビジュアライゼーションや再利用可能なレイアウトのスタート地点を提供するいくつかのサンプルダッシュボードを参照します。
- Dashboardsの下にあるView galleryをクリックします。
-
https://<databricks-instance>/sql/dashboards/samples
にアクセスします。<databricks-instance>
をdbc-a1b2345c-d6e7.cloud.databricks.com
のようなお使いのワークスペースインスタンス名で置き換えます。
- 一般的なBIツールを用いてテーブルをクエリーし、ビジュアライゼーションを作成します。
Databricks SQLに接続したBIツールを用いてテーブルをクエリーし、ビジュアライゼーションを作成する
このセクションでは、どのようにしてDatabrikcs SQL情報を取得し、Power BIデスクトップ、TableauオンラインをSQLエンドポイントに接続し、それぞれのBIツールでpeopleテーブルをクエリーし、データを可視化すのかを説明します。
本章では以下を説明します。
Databricks SQL
このセクションでは、どのようにウェアハウスの接続情報を取得し、お使いのツールからDatabricks SQLの認証を得るためのトークンを生成するのかを説明します。
ステップ1: SQLウェアハウス接続情報詳細の取得
- Databricks SQLにログインします。
- サイドバーのSQL Warehousesをクリックします。
- ウェアハウス一覧で、フィルターボックスに
Starter
と入力します。 - Starter Warehouseリンクをクリックします。
-
Connection Detailタブをクリックします。
- をクリックしてサーバーのホスト名とHTTPパスをコピーします。
ステップ2: パーソナルアクセストークンの取得
パーソナルアクセストークンを使用することでDatabricks SQLに対する認証を行うことができます。
- サイドバーの下にあるSettingsをクリックし、User Settingを選択します。
- Personal Access Tokensタブをクリックします。
- + Generate New Tokenをクリックします。
- 必要に応じてコメントを入力し、トークンの有効期限を設定します。
- Generateをクリックします。
- をクリックしてトークンをコピーしOKをクリックします。
Power BI
ステップ1: Power BIからDatabricks SQLへの接続設定
-
Get Data > More… > Azureを選択し、Azure Databricksコネクターを選択します。
注意
ラベルにAzure Databricksとありますが、このコネクターはAWSのDatabricksでも動作します。 -
Connectをクリックします。
-
ステップ1: SQLウェアハウス接続情報詳細の取得でコピーしたホスト名とHTTPパスを入力します。
-
OKをクリックします。
-
認証プロンプトにおいては、Personal Access Tokenタブを選択し、ステップ2: パーソナルアクセストークンの取得でコピーしたパーソナルアクセストークンを入力します。
-
Connectをクリックします。
SQLウェアハウスが動作していない場合、SQLエンドポイントが起動しますが起動に数分を要する場合があります。
-
Power BIナビゲーターで
default.people10m
テーブルを選択します。 -
Loadをクリックします。
ステップ2: データの整形
ファーストネームがMaryの女性のレコードを取得し、年ごとの人数をカウントします。
-
firstName
、gender
、birthDate
以外の列を削除します。 -
firstName = Mary
とgender = F
でデータをフィルタリングします。 -
birthDate
の型をDate
に変換し、年以外の構成要素を削除します。 - 年でグルーピングし、年ごとのMaryの人数をカウントします。
ステップ3: データの可視化
Tableauオンライン
ステップ1: TableauオンラインからDatabricks SQLへの接続設定
-
Tableauオンラインで、ワークブックを開くか新たなノートブックを作成します。
-
Databricks connectionダイアログで、ステップ1: SQLウェアハウス接続情報詳細の取得でコピーしたホスト名とHTTPパスを入力します。
-
ステップ2: パーソナルアクセストークンの取得で取得したユーザー名とトークンとして
token
を用いて認証を行います。 -
Sign inをクリックします。
SQLウェアハウスが動作していない場合、SQLエンドポイントが起動しますが起動に数分を要する場合があります。
-
スキーマフィールドに
default
と入力しEnterを押します。 -
テーブルフィールドには、
people10m
と入力しEnterを押します。 -
キャンバスに
people10
テーブルをドラッグします。
ステップ2: データの整形
-
firstName
、gender
、birthDate
以外の列を削除します。 -
firstName = Mary
とgender = F
でデータをフィルタリングします。 -
birthDate
の型をDate
に変換し、年以外の構成要素を削除します。 - 年でグルーピングし、年ごとのMaryの人数をカウントします。