5
1

ZealのCO-ODEデータを用いたDatabricksにおけるデータ分析

Posted at

Zeal様がDatabricksマーケットプレイスのプロバイダーになることが、こちらのニュースリリースで発表されました。

こちらのデータセットです。

オープンデータや外部データを収集・加工して配信しているサービス
~自社データ×外部データでデータ分析の高度化を実現~
自社データと外部データを掛け合わせると、要因分析・原因分析や将来予測を立てやすくなります。

Screenshot 2023-12-22 at 16.28.56.png

Databricksマーケットプレイスからアクセスを申請します。申請する前にこちらで料金体系をご確認ください。

承認されると以下のようなメールが届きます。
Screenshot 2023-12-22 at 14.19.55.png

マーケットプレイスの画面では即時アクセス権を取得ボタンが表示されます。
Screenshot 2023-12-22 at 14.19.19.png

取り込む際にはカタログ名を指定します。
Screenshot 2023-12-22 at 14.24.28.png

取り込みが完了すると、カタログエクスプローラでテーブルにアクセスできるようになります。
Screenshot 2023-12-22 at 14.25.18.png

日本のデータなのが嬉しいですね。
Screenshot 2023-12-22 at 14.25.30.png

今回はこちらの人口データを使います。

ノートブックで確認します。

SELECT * FROM zeal_corporation_population.coode_sample.population_2020;

プロファイラでデータの傾向を把握します。
Screenshot 2023-12-22 at 16.52.29.png

都道府県は1つしか無いので2020年時点の東京都のみのデータであることがわかります。その他の列を見ていくと、世帯や人口、職業などに関する定量データが含まれていることがわかります。

今回はクイックにLakeviewでダッシュボードを作ります。ところどころ日本語で指示したりしてます。
Screenshot 2023-12-22 at 16.54.42.png

上の二つのグラフからは世田谷区や品川区の人口増加が著しいことがわかります。特に増減数のグラフからは23区の増加とそれ以外の地域の減少が顕著であることがわかります。

右下のグラフでは、人口数の少ない地域での高齢化を確認することができまます。こうなると3年後の今年のデータも見てみたくなりますね。
chart (1).png

分析のエクササイズには適したデータだと思います。この他のデータも見てみようと思いますし、データエンジニアリングして更なる観点で分析したいとも思いました。是非活用をご検討ください!詳細はこちらのページ下部にあるお問い合わせフォームからお願いします。

Databricksクイックスタートガイド

Databricksクイックスタートガイド

Databricks無料トライアル

Databricks無料トライアル

5
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
1