4/18時点の東京都 新型コロナウイルス陽性患者データ
はじめに
3月から在宅勤務が続き、自分の勉強の時間を確保しやすくなりました。
主にGCPの資格取得(Professional Data Engineer)を目標に勉強している中でデータの可視化に特化したGoogle Dataportalの存在を知り、触ってみたいなーと。
また、Qiitaの記事でも新型コロナ関連の記事をちらほら見受けられ、東京都が公開しているデータセットの存在も知りました。
(https://catalog.data.metro.tokyo.lg.jp/dataset/t000010d0000000068)
自分の勉強×新型コロナの現状共有ということでこの記事を書こうと思い立ちました。
Google Dataportal とは?
Googleが提供しているデータ可視化ツールです。一般的にBIツールと呼ばれる部類のサービスです。
以前はGoogle Datastudioという名称だったようですが、GCPのドキュメントにもGoogle Dataportalという名称で掲載されています。
色々なデータソースに接続することでき、データを様々なグラフで可視化することできます。グラフをシンプルですが見やすく綺麗にデータをまとめることができます。
実際に触ってみる
最初の画面はこんな感じです。ここに色々なグラフをのせてレポートを作っていきます。
データのインポート
まずは可視化するためのデータを選択します。メニューバーの「データを追加」を選択すると下記のウィンドウが開きます。
Googleコネクタを含む200種類以上のデータ接続メニューがあります。今回は上記のリンクから取得したCSVファイルをインポートしたいため、Googleコネクタにある「ファイルのアップロード」を選択します。
ファイルをアップロードするとデータセットが作成されます。作成されたデータセットを選択して追加を押します。
右にデータに関するメニューが出現します。デフォルトでレコードカウントが出力されていました。
データに関するメニューの説明
- 使用可能な項目:入力データのカラム一覧
- 期間のディメンジョン:追加するグラフに適用する期間を表すカラム
- ディメンジョン:追加するグラフに適用するカラム
- 指標:ディメンジョンの出力形式(Ex. sum(), ave())
- 並べ替え:指定の出力形式で降順にするか昇順にするか選択
- デフォルトの日付範囲:グラフに適する期間
- フィルタ:グラフに適用するデータの条件を指定
レポート上へのグラフの作成
まず、感染者の推移をグラフ化したいと思います。デフォルトで出力されていたグラフを削除し、上のメニューバーの「グラフの追加」を選択して「時系列グラフ」を選択します。
名称だけでなく出力されるグラフイメージがあるので、自分がイメージしたグラフを選択しやすいですね。
レポートの上でクリックして、グラフをおきます。必要に応じて、大きさを変更することができます。
今回はデフォルトで日付ごとのレコード数が可視化されていたので、欲しいグラフが2クリックでできてしまいました。
なんと簡単!!
デフォルトのままでは伝わりにくい部分があるので、少し修正します。
① 「Record Count」を「東京都」に変更
指標の「AUT」をクリックすると、指標の名称や出力形式を変更することができます。
② なんのグラフかわかるようにテキストを追加
メニューバーの「テキスト」をクリックすると、任意の場所にテキストを追加できます。
次に感染者の年代別割合をグラフ化してみます。推移の時と同様に「グラフの追加」をクリックして、今度は円グラフを選択します。
すると、今度は意図したグラフになっていませんでした。
意図したグラフにするために修正していきます。
① ディメンジョンを「患者_年代」を選択
② 並べ替えで「患者_年代」,「昇順」を選択
③ テキストで「感染者の年代割合」を追加
これで意図したグラフを作成することができました。
直感的に操作できて簡単に綺麗なグラフが作成できます。
最後にフィルターの使い方を紹介します。
「フィルタを追加」を押すと下図のようなウィンドウがでてきます。名前をフィルター名を入力します。一度作っておくと再利用が可能です。
下記でフィルタ条件を指定します。
- 一致条件,除外条件:条件に一致するデータを採用するか除外するか
- 項目を選択:条件の対象となるカラムを選択
- 条件の入力
今回は退院済みの患者の年代割合を出したいため、「退院済みフラグが1になっているレコード」という条件を指定しています。
レポートの出力
最後にレポートの出力の仕方です。
メニューバーの「共有」の横のプルダウンを押すといくつか選択肢がでてきます。今回は「レポートをダウンロード」を選択してPDFで落としました。
「メール配信をスケジュール」ではログインしているGmailアカウントで指定の時間に配信ができるようです。
さいごに
Google Dataportalを使ってデータの可視化についてまとめてみました。
直感的に操作できて、慣れるまでの時間を短かったです。今回はCSVファイルだったのですが、データソースをBigQueryやCloudStorageにして定期的に更新させるようなバッチを仕掛けておけば、レポートの内容も動的に変えていくことが可能そうです。
日次のバッチ処理を行なった後、内容が更新されたレポートを指定日時にメールで配信するといったソリューションが実現できそうですね!
データの可視化で苦労している方の手助けになれれば幸いです。
新型コロナデータを可視化してみて
3月末から感染者が指数関数的に増えているのがわかってぞっとしました。日々のニュースではその日その日人数しかわからないので全体感がわかるとまた違った見え方になりますね。
また、年代別に見ても満遍なく感染者がでていて、もはや「若いから大丈夫」なんてことはないようです。
様々な形でデータを提供してくだっているみなさま、ありがとうございます。
医療従事者のみなさま、ありがとうございます。
外出自粛を頑張っているみなさん、お疲れ様です、みんなでもう少し頑張りましょう。
以上です。