次の図は、新型コロナウイルス(COVID-19)の都道府県別の感染状況を示しています。各都道府県にある円をバブルと呼びますが、このバブルが大きいほど感染者数が多いことを示します。
(データの出典:厚生労働省 都道府県別の患者報告数 2020/4/19)
ご存じの通り東京都の感染者数が多いため、東京都のバブルは最も大きくなっています。東京都のバブルに隠れてはいますが、関東地方の神奈川県、千葉県、埼玉県のバブルも大きいです。近畿地方では、大阪府、兵庫県のバブルが大きく、他にも福岡県、北海道のバブルが大きくなっています。
以降では別の可視化方法を用い、都道府県別の感染者数を比較してみます。
●面積で比較する
都道府県別の感染者数をツリーマップで表してみます。
ツリーマップは、多くのカテゴリがあるパターンを調べるときに有効なグラフです。この例でのカテゴリは”都道府県”であり、47個のカテゴリがあります。各カテゴリの長方形の大きさ(面積)が、そのカテゴリの度数を示します。この例での度数は、”感染者数” です。
以下のツリーマップでは、地方(関東、近畿など)で色分けし、都道府県の位置情報をある程度反映させたものです。
地方別に見ると関東地方(赤色)が全体の半分程度を占めることがわかります。その中でも東京都は半分以上を占めています。次いで近畿地方(緑色)が大きいことや、九州地方の中で福岡県が大きく占めていることなどがわかります。逆に中国地方や四国地方は、全体に対し小さいです。
●大きいところを強調して
パレートの法則という有名な法則をご存じでしょうか。「全体の上位2割で全体の8割を占める」という法則です。たとえばある会社でいくつかの製品を販売しているとき、全体の上位2割の製品で売上の8割を占める。だから、上位2割の製品に力を注ぐ方が良いといった感じです(最近はロングテール理論というものもあり、上位2割以外のものに注視するという考え方もあります)。
上記の感染者数の状況がパレートの法則に従っているかを確認するために、パレート図を作成してみます。
パレート図とは、カテゴリの度数が大きい順に割合の棒グラフを描いていき、折れ線で累積割合を示すグラフです。この例では、都道府県別に感染者数が多い順に棒グラフを描いていきます。
上記のパレート図で、赤色で示したのが値の大きい上位10都道府県です。東京都、大阪府と続き、最後が京都府ですが、これらの都道府県が上位約2割です( 10 / 47 = 0.213)。上側の折れ線グラフをみると、この10都道府県で全体の約8割( =0.802) を占めており、パレートの法則が成立していることがわかります。
そのため、上位に着目した次のような棒グラフを描いてみます。
上位10位までは値の大きさを棒グラフで示し、上位11位以降は、棒グラフを積み重ねて1つの棒グラフにします。
上位11位以降は石川県、茨城県・・・と続きますが、これらの度数をすべて足し合わせても、東京都より小さいことがわかります。
今回の可視化に関連する情報は、以下のページで確認することができます。今回分析の対象とした2020/4/19より前の状況も掲載しており、感染者数のほかに、人口1万人あたりの感染者数、死亡者数などのデータの可視化もインタラクティブに行うことができます。
ただ私の切なる願いは、感染者数がいなくなり、このようなデータの集計、可視化をしなくて良くなることです。
■ さあ始めよう!
JMPの全機能を30日間試せるトライアル版で、データからさらなる情報を導き出せることを実感してください。
さあ始めましょう。
ダウンロードはコチラ!
■ JMPについて
JMP(ジャンプ)は世界中のエンジニア、データアナリストに選ばれているインタラクティブで可視的なデータ分析ツールです。