More than 5 years have passed since last update.

ジョンズ・ホプキンズ大学の新型コロナウイルスのデータをPower BIで可視化してみよう（1/5）

Last updated at 2020-04-21Posted at 2020-04-15

目的

ジョンズ・ホプキンズ大の集計データはGithubに公開されています。本家のダッシュボードよりはショボいですが、自分で好きなように可視化できるものをPower BI（無料版）を使って作ります。

[追記] 完成したpbixファイルのリンク張っときます： https://github.com/yoshiwatanabe/powerbi/blob/master/JHU-COVID19-Analysis.pbix

構成

長くなるので複数のステップに分けることにします。

Githubからデータを取得してPower BIクエリを作成する
作成したクエリをさらに処理してデータモデルを作る
集計データのためのメジャーを作る
データモデルとメジャーを使ってデータの可視化をする

対象

Power BI初心者および全く扱ったことがない人
Power BIとかTableauに興味がある人
普段はプログラマ・開発者でデータサイエンスにちょっと興味がある人

参考資料

Dannelly Ramos - AnalyzeWithPower
https://www.youtube.com/channel/UCbywJPHKxhqdHp8azdiEwCg

ジョンズ・ホプキンズ大の集計データをPower BIで可視化してる人を探したら一発で出てきました。大変参考になりました。このシリーズで作成するモデルやメジャーはDannellyさんが解説したものをベースにしています。

背景

私はメインでC#を使う開発者です。データサイエンティストではありません。Power BIの経験値は1年に1回使わないぐらいです（Power BIではDAXと呼ばれる式で記述しますが、先週まで全く知らなかったので2日ぐらい集中して勉強したところです）。開発に携わっているサービスはめちゃめちゃPower BI使ってるんですが、今までそっち方面は無視してたんですが、もうちょっと理解したいなと思うのと、ジョンズ・ホプキンズ大のデータをいじってみたいなと思ったのがきっかけです。

おことわり

ジョンズ・ホプキンズ大の集計データに限らず、新型コロナウイルス関連のデータは、特に全世界の範囲を一様に網羅しているデータは、比べることそのものが無意味だという見解もあります。私個人としては感染者数ではなく死亡数（これはいくらなんでも水増しやその逆をし難い、がそれでも国によっては死因を特定できずカウント漏れがあるかもしれませんが）のトレンドはある程度のインサイトを含んでいると考えています。

あくまでもPower BIの練習用データとして多くの人の興味を引く（つまり学習のモチベーションが期待できる）新型コロナウイルスのデータを利用しているのであって、データソースの質に関しては暗示的にも明示的にもなんら価値判断を下していません。

あともう一つ、スクショなどは英語です。すみません。日本語版を使ったことが無いので。