More than 3 years have passed since last update.

ローコードでDatabricks SQLダッシュボードを作成する

Last updated at 2022-03-23Posted at 2022-03-23

ノーコードでDatabricks SQLダッシュボードを作成するでは、1行のPython/SQLを記述することなくダッシュボードを作成する手順をご紹介しました。ノーコード開発はコーディングを必要としないため、敷居が低いというメリットがある一方、コーディングによって得られる柔軟性を犠牲にしているといえます。ノーコードで対応しきれないユースケースに対しては、何かしらのコーディングが必要となります。

こちらでは可能な限りコーディングの量を減らしつつも、柔軟性を確保し機能性の高いダッシュボードを作成する手順をご紹介します。

「ローコード」の定義は人によって異なるかと思います。本書ではSQLのコーディングのみをご紹介していますが、人によってはコーディングが多いと感じられる場合があることをご承知おきください。

テーブルの作成

ノーコードでDatabricks SQLダッシュボードを作成するでは、最初からDatabricksワークスペースに存在しているテーブルを参照してダッシュボードを作成しました。こちらでは、外部からデータを取り込んでテーブルを作成する流れをご紹介します。このステップはノーコードとなります。

データのダウンロード

ここでは、政府統計の総合窓口で公開されている男女別人口－全国，都道府県（大正９年～平成27年）のデータを使用します。リンク先にアクセスし、表番号1のCSVをダウンロードします。

このCSVファイルの文字コードはShift_JISなので、UTF-8への変換が必要となります。Databricksにおける文字コードはUTF-8となります。

こちらの記事を参考にしていただくなどして、メモ帳でUTF-8を指定して保存し直してください。

Databrikcsへのデータのアップロード

DatabricksワークスペースにCSVファイルをアップロードしてテーブルを作成します。

Databricksワークスペースにログインし、サイドバーのデータをクリックし右上のテーブルを作成ボタンをクリックします。
テーブル作成画面に移動します。テーブルの格納場所をDBFSターゲットディレクトリで指定します。
ファイルのボックスに、上のステップで準備したCSVファイルをドラッグ&ドロップします。
UIでテーブルを作成ボタンをクリックします。
テーブルのプレビューを表示するために使用するクラスターをクラスターから選択します。クラスターが起動していない場合には起動してください。クラスターを選択したらテーブルをプレビューボタンをクリックします。
テーブルのプレビューが表示されますので、以下の設定を行います。
- テーブル名: 作成するテーブルの名称を指定します。
- データベース: テーブルを作成するデータベースを選択します。デフォルトのデータベースはdefaultとなります。
- 1行目はヘッダー: このCSVファイルの1行目はヘッダーなのでチェックします。
- カラムのデータ型: 以下のカラムのデータ型をINTに設定します。
  - 和暦（年）
  - 西暦（年）
  - 人口（総数）
  - 人口（男）
  - 人口（女）
以下のように設定を行います。
テーブルを作成ボタンをクリックしてテーブルを作成します。テーブルの作成が完了するとテーブルが表示されます。ここまではすべてノーコードです。

ダッシュボードの作成

上のステップで作成したテーブルに対して、ノーコードでDatabricks SQLダッシュボードを作成するで紹介したクイックダッシュボードを使用すれば、テーブルの作成からダッシュボードの作成まですべてをノーコードで完了することが可能です。

しかし、ここでは西暦、都道府県でのフィルタリングなどが行えるより機能的なダッシュボードを作成するために、SQLによるコーディングを行います。このダッシュボードでは、上で作成したテーブルにアクセスし、集計を行うための以下の4つのクエリー(SQL)を作成します。

西暦一覧
都道府県一覧
都道府県別人口遷移
人口

DatabricksワークスペースのサイドバーにあるペルソナスイッチャーでSQLを選択してDatabricks SQLに移動します。

クエリーの作成

サイドメニューのクエリを選択します。
画面右上のクエリを作成ボタンをクリックします。
クエリエディタに移動します。この画面でSQLを記述してクエリーを作成します。
Databricks SQLでクエリーを実行するにはSQLエンドポイントが必要となります。SQLエンドポイントが起動していない場合には起動の上、画面上部中央からSQLエンドポイントを選択してください。
画面左側でデータベース、テーブルを一覧することができます。テーブル名、カラム名の右にある >> をクリックすると右側のエディタにテーブル名、カラム名を入力することができます。
クエリーを記述したら画面右上の実行でクエリーの動作確認を行い、問題がなければ保存ボタンをクリックしてクエリーを保存します。タブをクリックしてクエリー名を変更します。

まず、フィルタリングの部品を作るための2つのクエリーを作成します。

西暦一覧

SELECT
  `西暦（年）`
FROM
  <データベース名>.<テーブル名>
WHERE
  `西暦（年）` IS NOT NULL
GROUP BY
  `西暦（年）`
ORDER BY
  `西暦（年）` DESC

都道府県一覧

SELECT
  `都道府県名`,
  `都道府県コード`
FROM
  <データベース名>.<テーブル名>
WHERE
  `都道府県名` IS NOT NULL
  AND `都道府県名` NOT IN ("人口集中地区", "人口集中地区以外の地区")
GROUP BY
  `都道府県名`,
  `都道府県コード`
ORDER BY
  `都道府県コード` ASC

上のフィルタリング条件を入力として集計を行う、以下の2つのクエリーを作成します。{{}}で囲まれている部分がパラメーターとして置き換えられます。

都道府県別人口遷移

SELECT
  *
FROM
  <データベース名>.<テーブル名>
WHERE
  (
    '全国' in ({{ 都道府県名 }})
    OR `都道府県名` IN ({{ 都道府県名 }})
  )
  AND `都道府県名` NOT IN ("全国", "人口集中地区", "人口集中地区以外の地区")
ORDER BY
  `人口（総数）` DESC

上のクエリーを実行すると、以下のように結果の上部にフィルタリングのための部品が表示されます。この部品が上で作成したクエリーの結果を読み込むように設定を行います。

Type: クエリベースのドロップダウンリスト
クエリー: 都道府県一覧
複数の値を許容: チェックします
引用符: 引用符を選択します

人口

SELECT
  *
FROM
  <データベース名>.<テーブル名>
WHERE
  (
    '全国' in ({{ 都道府県名 }})
    OR `都道府県名` IN ({{ 都道府県名 }})
  )
  AND `西暦（年）` = {{ 西暦 }}
  AND `都道府県名` NOT IN ("全国", "人口集中地区", "人口集中地区以外の地区")
ORDER BY
  `人口（総数）` DESC