LoginSignup
14
3

More than 3 years have passed since last update.

データの可視化シリーズ 第15弾 - 「色」と「繰り返し」を使って散布図を分割して相関を可視化する

Posted at

データの可視化シリーズ 第15弾 - 「色」と「繰り返し」を使って散布図を分割して相関を可視化する

こんにちは

Exploratoryの白戸です。

前回は、散布図の「線形回帰によるトレンドライン」という機能を使うことで、2つの数値データ間の相関関係を詳しく見ていきました。

今回は、散布図に「色で分割」と「繰り返し」の機能を使って、グループ(またはカテゴリー)ごとに2つの数値データ間の相関関係を可視化して、より細かくみていきたいと思います。

image.png

使用データ

今回も前回と同様に、従業員のデータを使用していきます。

image.png

このデータは各行が従業員ひとりひとりのステータスを表し、年齢や勤続年数や所属部署、そして月収などのデータがあります。

データはこちらからダウンロードできます。

データの可視化の目的

目的

月収と勤続年数の相関は性別や職種別に違うのか知りたい

使用機能

  • 散布図
  • トレンドライン:線形回帰
  • 色で分割
  • 繰り返し

可視化

前回、月収と勤続年数の間に強い相関関係があることがわかりましたが、性別や職種によって相関係数は違うのかという疑問が生まれました。

今回は、散布図の「色で分割」と「繰り返し」の機能を使って、月収と勤続年数の関係を性別や職種ごとに可視化し、さらに「トレンドライン」を使ってより詳しく理解していきたいと思います。

月収と勤続年数の相関関係

チャートのX軸には勤続年数を表すTotalWorkingYears、Y軸には月収を表すMonthly Incomeを選択している散布図を使用します。

image.png

次に、Y軸のメニューからトレンドラインを選択して線形回帰を引いてください。

image.png

月収と勤続年数の相関係数(Correlation)は0.772と強い相関関係があります。

image.png

性別ごとに相関を可視化する

先ほどみた相関は、男女混合にした全てのデータに対するものでした。

男女別に相関は違うのか見ていきたいために、色で分割を使用していきます。

色で分割にGenderを選択します。

image.png

男女別に散布図を可視化することができました。

image.png

男性の相関係数は0.78です。

image.png

女性の相関係数は0.76でした。

image.png

若干ですが、男性の方が月収と勤続年数の間にある相関関係が強いようです。

職種ごとに相関を可視化する

次に職種ごとに、散布図を可視化していきたいと思います。

色で分割に職種を表すJobRoleを選択します。

image.png

色で職種ごとに散布図に可視化することができました。

image.png

しかし、職種が9つあるために一つの散布図で表現するとみづらくなってしまいます。

そのため、「色で分割」をする代わりに、「繰り返し」を使ってそれぞれのカテゴリごとにチャートを作ってみましょう。

繰り返しにJobRoleを選択します。

image.png

ひとつの職種につき、散布図をひとつ作成することができました。

image.png

このままだと見づらいため、繰り返しのプロパティから列の数を3に、全画面に収めるにチェックし、チャート間の同期をX軸とY軸共にチェックを外します。

image.png

チャートがより見やすくなりました。

もっとチャートの表示領域を広げるために、右に表示されている凡例を上に表示します。

image.png

チャートタイプの上にあるプロパティから、判例の位置を上に変更します。

image.png

職種別にトレンドラインの線形回帰を引いた散布図を可視化することができました。

image.png

職種別に見ると、それぞれ相関が違うことがわかりました。

また,Sales RepresentativeやLaboratory Technicianは傾きが他の職種に比べて小さいために、勤続年数が増えても月収は上がりにくいようです。

image.png

職種と性別ごとに相関を可視化する

職種ごと相関を見ていきましたが、性別を「色で分割」に加えることで、職種の性別ごとに相関を可視化していきたいと思います。

色で分割にGenderを選択します。

image.png

職種の性別ごとに散布図を作成することができました。

image.png

職種によって、男性の方が月給が高くなりやすい職種と女性の方が月給が高くなりやすい職種があることがわかりました。

まとめ

今回は「色で分割」や「繰り返し」を使って、グループ(またはカテゴリー)ごとにデータの中にある相関関係を可視化し、より詳細に理解していくことができました。

これまで3回にわたって散布図を使うことで、2つの数値データの間の関係を可視化してきました。この散布図は2つの数値データ間の相関関係を調べる時によく使われます。

皆さんもぜひ使ってみてください。

次回はバブルチャートを使って可視化していきます。
バブルチャートは散布図と同様にX軸とY軸に対応した位置にデータを点でプロットします。しかし、散布図は全てのデータポイントをプロットしますが、バブルチャートはカテゴリごとに集計したデータをプロットするという違いがあります。

  • データの可視化シリーズ 第16弾 - バブルチャートを使ってカテゴリごとの「位置」を可視化する

Exploratoryデータ・アカデミー

データの可視化、またはデータ分析に関してもっと知りたい、学びたいという方は、私達が提供しているトレーニングやセミナーに参加してみてください。

こちらのExploratoryデータ・アカデミーのページに詳細情報があります。

データを使ってより良い意思決定を行っていきたいと言う方は、ぜひこの機会に参加をご検討ください!

14
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
14
3