Posted at

データの可視化シリーズ 第16弾 - バブルチャート: 2つの数値型の列の関係を集計してから可視化する


データの可視化シリーズ 第16弾 - バブルチャート: 2つの数値型の列の関係を集計してから可視化する

こんにちは

Exploratoryの白戸です。

前回は、散布図に「色で分割」と「繰り返し」の機能を使って、グループ(またはカテゴリー)ごとに2つの数値データ間の相関関係を可視化して、より細かくみていきました。

今回は、データをグループ(またはカテゴリ)ごとに集計した上で、数値データ間の関係を可視化したい時に使える、「バブルチャート」を紹介をします。

image.png


使用データ

今回から、EDA Salon でも使用している、世界の大学ランキングのデータを使って可視化していきます。

データラングリングしている状態なので、もし同様のデータを使用したい場合はこちらからEDFをダウンロードしてください。


データの可視化の目的

目的

国によって、研究のスコアと教えることに対するスコアの間の関係は同じか、それとも違うのかを平均値をもとに調べたい。

また、その国でランキングに入っている数や、卒業した後の給料のスコアはどのくらいなのかも知りたい。

使用機能


  • バブルチャート

  • サイズ

  • 色で分割

  • 繰り返し


可視化

バブルチャートは散布図と同じように、2つの列の値をそれぞれX軸とY軸に割当て、それらが交わる場所に点を描画します。

しかし、散布図は全てのデータポイントをプロットしますが、バブルチャートはグループごとに集計したデータをプロットするという違いがあります。


グループ化を使って、集計の単位を設定

新規にチャートを作成し、チャートタイプに「バブル」を選びます。

X軸には研究に対するスコアのresearchを、Y軸には教えることに対するスコアのteachingを選択します。集計関数はどちらも平均値(AVG)にします。

image.png

バブルチャートに一つの点がプロットされました。

image.png

これは、すべてのデータのX軸とY軸の平均値を集計してデータを一つの点でプロットしています。

つまり、全ての国のresearchとteachingの平均値を集計して、対応した位置にデータを点でプロットしたことになります。

ここからバブルチャートの特徴でもある「グループ化」を使って、それぞれのグループごとにデータをプロットしていきます。

今回は国ごとにグループ化していきたいために、グループ化にcountryを選択します。

image.png

国ごとに集計されたデータを点でプロットすることができました。

image.png

グループ化を使うことにより、それぞれのグループごとに集計した値を点でプロットすることができます。

また、このバブルチャートを見ると、一つの国が飛び抜けてスコアが高いことがわかります。

image.png

シンガポールがresearchとteachingのスコアの平均値が高いようです。

しかし、大学の数が少ないため、平均値が高くなっていることが予想されます。そのため、「サイズ」を使って大学の数を可視化していきます。


「サイズ」を使って別の列の値を可視化

サイズに行の数を選択します。

image.png

なんとこれだけで、国ごとにどれだけの大学数があるのかをサイズを使って可視化することができます。

image.png

より見やすくしたいため、サイズを大きくしていきます。

サイズの右上にあるプロパティを開きます。

image.png

最大サイズがデフォルトでは40になっていますが、2倍の80にして適用します。

image.png

サイズを大きくしたことによって、国ごとの大学数の違いがよりわかりやすくなりました。

image.png

先ほどresearchとteachingのスコアが高かったシンガポールを見てみます。

image.png

すると、大学の数は2つしかないことがわかりました。やはり大学の数が少ないため平均値が高かったようです。平均値の怖い罠ですね。

次に、もっともサイズが大きい国をみてみると、United States of Americaのようです。

image.png

ランキング入りしている大学数が147校もあるとは、やはりアメリカは桁が違いますね。

ちなみに日本をみてみると、41校ランキング入りしているようです。

image.png

だいたい中間あたりに位置している日本の大学ですが、大学を卒業した後の給料は他の国に比べて高いのか低いのか気になりませんか?

そのため、大学卒業後の給料に関するスコアがあるので、「色」を使って可視化していきます。


「色」を使ってさらに別の列の値を可視化

「色で分割」に給料のスコアを示すincomeを選択し、集計関数を平均値(AVG)にします。

image.png

給料のスコアの平均に応じて色をつけることができました。

image.png

incomeは数値データなので、等幅で値を区切り5等分しています。

数値が大きいほど、色も濃くなっています。

デフォルトの色だと薄い点が見にくいため、色を変更します。

色で分割のメニューをクリックし、色の設定を開きます。

image.png

カラーパレットを「イエロー -オレンジ-」にします。

image.png

大学卒業後の給料の平均値を色を使って可視化することができました。

image.png

日本を見てみると、incomeの平均値は47.39とこのスコアも中間層に位置しているようです。

image.png

この給料の違いは、国ごとなのかそれともアジアやヨーロッパなどの区分よって違うのか見たいため、繰り返しを使ってバブルチャートを分割していきます。


「繰り返し」を使って、アジアやヨーロッパごとに分ける

アジアやヨーロッパごとにチャートを分けてみたいため繰り返しに、country_coutrycodeを選択します。

image.png

これでアジアやヨーロッパごとにチャートを分けることはできたんですが、一列に4つのチャートが表示されていて見づらいため、列の数を調整します。

image.png

繰り返しのプロパティを開きます。

image.png

列の数はデフォルトでは自動になっていますが、今回は3に設定します。

image.png

これにより、一つ一つのチャートがよりみやすくなりました。

image.png

ランキングに選ばれている国の数はアジアとヨーロッパが多いようです。

image.png

ヨーロッパはresearchとteachingのスコアの水準がアジアに比べて高い国が多いです。しかし、給料の水準で見るとアジアのほうが高く見えます。

アフリカでは、南アフリカが給料のスコアが高いようですが、他の国ではどのスコアも低いようです。


まとめ

今回はバブルチャートを使用して、グループごとに集計されたデータを点でX軸とY軸に対応する位置にプロットして可視化していきました。さらには、「サイズ」や「色で分割」を使って別の列の情報を可視化することで、データを様々な角度から理解していくことができました。

次回は、数値データとカテゴリデータの関係性を理解したいときによく使われる、「箱ひげ図」を使用します。


  • 可視化シリーズ 第18弾 - 「箱ひげ図」を使って数値データとカテゴリデータの組み合わせを可視化する



Exploratoryデータ・アカデミー

データの可視化、またはデータ分析に関してもっと知りたい、学びたいという方は、私達が提供しているトレーニングやセミナーに参加してみてください。

こちらのExploratoryデータ・アカデミーのページに詳細情報があります。

データを使ってより良い意思決定を行っていきたいと言う方は、ぜひこの機会に参加をご検討ください!