e-Statで準備開始
「Power BI Desktop」と「Tableau Public」で「令和2年国勢調査」の集計値結果を取得しました。
最後に「Google Data Portal」で取り込みます。
今回は、「e-Stat API」を利用し「Googleスプレッドシート」経由でインポートします。
「Tableau Public」で、使ったデータのように、縦長のテーブルを用意します。
下記画面はデフォルトの状態です。
レイアウト設定で行にフィールドを集めます。
以下のような表示に切り替わります。
APIからスプレッドシートへ
APIを利用してクエリーを取得します。
形式は「CSV」にします。
e-Statのマイページから「アプリケーションID」を取得し、上記クエリーに付与してGoogleスプレッドシートにインポートします。
Googleスプレッドシートで使える関数「IMPORTDATA」を使いしてクエリーを実行します。
=IMPORTDATA("http://api.e-stat.go.jp/rest/3.0/app/getSimpleStatsData?***
実行した結果です。
基本情報の下に数値データが収録されています。
後ほどGoogle Data Portalで数値データ部分以外を外す設定をします。
Google Data Portalでスプレッドシートをインポートします。
Google Data Portal開始
インポートします。
「先頭行をヘッダーとして使用する」「非表示のセルやフィルタ処理されたセルを含める」のチェックボックスを外していますが、今回は「先頭行をヘッダーとして使用する」だけ外せば大丈夫でした。
「先頭行をヘッダーとして使用する」をオンにすると、先頭行が空白となっている列を無視してしまいます。
ちなみに、上記2つのチェックボックスの下のフィールドでセル範囲を指定できます。
とすれば、使うデータだけを取り込めます。
今回は、セル範囲を使ってません。
フィルタ機能を使って外しています(下記参照)。
Google Data Portalに取り込んで表形式でデータを並べた状態です。
フィルタ使用
「null」を外したいので「フィルタ」を使います。
(列名は表用に変更したりしていますが、この時点では元のフィールド名の変更は行なっていません。このため、自動で付いたアルファベットの列名を使ってます。後でフィールド名を変更しています)
J(人口数)列のnullを外すフィルタ設定をします。
フィルタ適用後の状態です。
日付データを関数で整備
時系列データとして扱うために、時間軸(H列)を日付型に変更します。
取り込んだ状態のままでは文字列になっています。
もっと効率のいい方法があるかもしれませんが、思いつかなかったので今回は以下のやり方で変換しました。
関数を使ったフィールドを追加します。
まず、テキストの結合「CONCAT」を使い、「YYYY年MM月dd日」形式のデータにします。
今回は「YYYY年1月1日」としました。
CONCAT(H, "1月1日")
まだテキスト型のままなので、「TODATE」関数を使い日付型に変更します。
(フィールドを直接指定して変換する機能がうまく適用できなかったので関数を使いました)
"%Y年%m月%d日"というスタイルの文字列を"%Y/%m/%d"という形式の日付型に変更しています。
TODATE(YYYY,"%Y年%m月%d日","%Y/%m/%d")
可視化
Google Data Portalで、x軸を時間軸としたグラフを作成しました。
「総数」「男性」「女性」の各データが1列に入っているので、「総数」だけを指定できるようにリッストボックスのコントロールを追加しました。
同様に「人口集中地区」「人口集中地区以外」「全国」を外すリストボックスを配置しました。
ツリーマップも描き、折れ線グラフと連動できるようにもしました。
例えば、「北海道」をクリックすれば、「北海道」の人口推移(折れ線グラフ)のみ表示されます。
了