Zeal様がDatabricksマーケットプレイスのプロバイダーになることが、こちらのニュースリリースで発表されました。
こちらのデータセットです。
オープンデータや外部データを収集・加工して配信しているサービス
~自社データ×外部データでデータ分析の高度化を実現~
自社データと外部データを掛け合わせると、要因分析・原因分析や将来予測を立てやすくなります。
Databricksマーケットプレイスからアクセスを申請します。申請する前にこちらで料金体系をご確認ください。
マーケットプレイスの画面では即時アクセス権を取得ボタンが表示されます。
取り込みが完了すると、カタログエクスプローラでテーブルにアクセスできるようになります。
今回はこちらの人口データを使います。
ノートブックで確認します。
SELECT * FROM zeal_corporation_population.coode_sample.population_2020;
プロファイラでデータの傾向を把握します。
都道府県は1つしか無いので2020年時点の東京都のみのデータであることがわかります。その他の列を見ていくと、世帯や人口、職業などに関する定量データが含まれていることがわかります。
今回はクイックにLakeviewでダッシュボードを作ります。ところどころ日本語で指示したりしてます。
上の二つのグラフからは世田谷区や品川区の人口増加が著しいことがわかります。特に増減数のグラフからは23区の増加とそれ以外の地域の減少が顕著であることがわかります。
右下のグラフでは、人口数の少ない地域での高齢化を確認することができまます。こうなると3年後の今年のデータも見てみたくなりますね。
分析のエクササイズには適したデータだと思います。この他のデータも見てみようと思いますし、データエンジニアリングして更なる観点で分析したいとも思いました。是非活用をご検討ください!詳細はこちらのページ下部にあるお問い合わせフォームからお願いします。