データが与えられた時、まずは可視化してデータの特徴を把握することが大切です。しかし、何を軸にしてどのように可視化するのかということに関しては、あまりルール化されていないのが現状だと思います。
データから何を知りたいのか?ということから、パターン別にどのように可視化したらいいのかということをチートシート形式で示し、さらにpythonでの可視化方法を順に紹介していきたいと思います。
data:image/s3,"s3://crabby-images/93b1d/93b1d527f9c5cb1ccf3a11317c7535916ae2c838" alt="Screen Shot 2018-06-06 at 14.29.04.png"
上のチートシートを参考に、
- Distribution|分布
- Composition|構成
- Relationship|関係
- Comparison|比較
の4つの項目に分けて、どのようなデータパターンではどのように可視化するとわかりやすいか、pythonではどのように実装するのかを記していきます。
準備
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import seaborn as sns
plt.style.use('ggplot')
plt.rcParams.update({'font.size':15})
%matplotlib inline
可視化には主に、matplotlib.pyplot
、seaborn
を使います。seabornに馴染みのない方は、この記事を見るといいと思います。
Distribution|分布
data:image/s3,"s3://crabby-images/30b81/30b81197ee0bf25ad8a3f016a1f58f58cbbcccf6" alt="Screen Shot 2018-06-06 at 17.57.06.png"
1変数の分布
データポイントが数個の場合|ヒストグラム
x = np.random.normal(size = 1000)
plt.hist(x)
plt.show()
data:image/s3,"s3://crabby-images/1482c/1482c583693e58d28ed87ae2a3394a230e13bc97" alt="Screen Shot 2018-06-06 at 17.55.10.png"
データポイントが多い場合|線グラフヒストグラム
x = np.random.normal(size = 1000)
# ここのみ、seabornを用いて可視化
sns.distplot(x)
data:image/s3,"s3://crabby-images/5f52a/5f52a945dac833af13094be2cd7a4290ee5d909e" alt="Screen Shot 2018-06-06 at 17.55.15.png"
2変数の分布|散布図
x = range(1, 101)
y = np.random.randn(100)*15 + range(1, 101)
plt.scatter(x, y)
plt.show()
data:image/s3,"s3://crabby-images/386cc/386cc57f5eaeeadf42856385bc8db2efc8651413" alt="Screen Shot 2018-06-06 at 17.55.21.png"
Composition|構成
data:image/s3,"s3://crabby-images/8c9d0/8c9d01b87f078cfa1b2203e960bd021524ab22a5" alt="Screen Shot 2018-06-06 at 17.59.41.png"
時間ごとの構成
時間軸が複数個の場合
割合のみを見たい場合|累積棒グラフ
x = [1, 2, 3, 4, 5]
y1 = [80, 60, 40, 20, 5]
y2 = [20, 40, 60, 80, 95]
plt.bar(x, y1)
plt.bar(x, y2, bottom=y1)
data:image/s3,"s3://crabby-images/c1d77/c1d7776b7d8d13c562df8daf0676451f381030e1" alt="Screen Shot 2018-06-06 at 18.04.21.png"
割合と値を両方見たい場合|棒グラフ
x = [1, 2, 3, 4, 5]
y1 = [100, 200, 300, 400, 500]
y2 = [1000, 800, 600, 400, 200]
plt.bar(x, y1)
plt.bar(x, y2, bottom=y1)
data:image/s3,"s3://crabby-images/80910/809104c069a648215ce8aad78257a651a0833241" alt="Screen Shot 2018-06-06 at 18.04.26.png"
時間軸が多い場合
割合のみを見たい場合|累積エリアチャート
x = range(1, 7)
y1 = [0, 20, 40, 30, 40, 100]
y2 = [40, 50, 20, 40, 55, 0]
y3 = [60, 30, 40, 30, 5, 0]
plt.stackplot(x, y1, y2, y3)
plt.show()
data:image/s3,"s3://crabby-images/d7300/d73004ab47a17c2248caabd956b345f9313f73ea" alt="Screen Shot 2018-06-06 at 18.04.31.png"
割合と値自体を両方見たい場合|エリアチャート
x=range(1, 7)
y1=[1, 4, 6, 8, 9, 3]
y2=[2, 2, 7, 10, 12, 10]
y3=[2, 8, 5, 10, 6, 8]
plt.stackplot(x,y1, y2, y3)
plt.show()
data:image/s3,"s3://crabby-images/dec13/dec1348f1519b85de7a506255bd18f21aa2c1125" alt="Screen Shot 2018-06-06 at 18.04.35.png"
静的カテゴリごとの構成
全体に占める割合を見たい場合|円グラフ
x = [100, 200, 300, 400, 500]
label = ["A", "B", "C", "D", "E"]
plt.pie(x, labels=label)
plt.axis('equal') # 出力が楕円形になるのを防ぐため
plt.show()
data:image/s3,"s3://crabby-images/2c67d/2c67d854f47de511225a48949f28db2b4192ba86" alt="Screen Shot 2018-06-06 at 18.04.39.png"
構成の構成を見たい場合|累積棒グラフ
x = [1, 2, 3, 4, 5]
y1 = [80, 60, 40, 20, 5]
y2 = [20, 40, 60, 80, 95]
plt.bar(x, y1)
plt.bar(x, y2, bottom=y1)
data:image/s3,"s3://crabby-images/6899c/6899c0bc87be5f2df95b21dcd784af6c6a3eaff6" alt="Screen Shot 2018-06-06 at 18.04.21.png"
全体に対する累積値と値自体を見たい場合|ツリーマップ
import squarify
x = [13,22,35,5]
label = ["A", "B", "C", "D"]
squarify.plot(x, label=label)
plt.axis('off')
plt.show()
data:image/s3,"s3://crabby-images/9105c/9105c06129d7508bd2c5e8136b7472a331c70835" alt="Screen Shot 2018-06-06 at 18.04.43.png"
Relationship|関係
data:image/s3,"s3://crabby-images/eaa6a/eaa6a81c76dd53145ca12f41dc4fe7454a7ddf7c" alt="Screen Shot 2018-06-06 at 18.09.25.png"
変数が2つの場合|散布図
x = range(1, 101)
y = np.random.randn(100)*15 + range(1, 101)
plt.scatter(x, y)
plt.show()
data:image/s3,"s3://crabby-images/9f7ca/9f7caabc7671ce9bfd48339939355cfae7348fc9" alt="Screen Shot 2018-06-06 at 18.09.45.png"
変数が3つの場合|散布図
x = np.random.rand(40)
y = np.random.rand(40)
z = np.random.rand(40)
plt.scatter(x, y, s=z*1000, alpha=0.5)
plt.show()
data:image/s3,"s3://crabby-images/5426a/5426a53bf66f05151dd8a778c9b5de577d1822fa" alt="Screen Shot 2018-06-06 at 18.09.49.png"
Comparison|比較
data:image/s3,"s3://crabby-images/ea99f/ea99fec91d117f5c612d84b63d5a732efb06770b" alt="Screen Shot 2018-06-06 at 18.09.32.png"
アイテム間の比較
アイテムごとの1変数を比較したい場合
カテゴリが少ない場合|縦棒グラフ・横棒グラフ
x = [1, 2, 3, 4, 5]
y = [80, 60, 40, 20, 5]
plt.bar(x, y)
plt.show()
data:image/s3,"s3://crabby-images/c61bb/c61bbd7c15cd6c57c597215e43caa75cd4fc8fa7" alt="Screen Shot 2018-06-06 at 18.10.03.png"
x = [1, 2, 3, 4, 5]
y = [80, 60, 40, 20, 5]
plt.barh(x, y)
plt.show()
data:image/s3,"s3://crabby-images/ab89c/ab89c9b737fff00518a5e223da445bf3a275c4da" alt="Screen Shot 2018-06-06 at 18.09.58.png"
カテゴリが多い場合
iris = sns.load_dataset("iris")
sns.pairplot(iris, hue="species", size=2.5)
data:image/s3,"s3://crabby-images/a9ac1/a9ac110301651d6893a539dfd8031e1227b8b51f" alt="Screen Shot 2018-06-06 at 18.25.40.png"
アイテムごとの2変数を比較したい場合|棒グラフ
y = [3, 12, 5, 18, 45]
x = ('A', 'B', 'C', 'D', 'E')
x_width = [0.1, 0.2, 3, 1.5, 0.3]
y_pos = [0, 0.3, 2, 4.5, 5.5]
plt.bar(y_pos, y, width=x_width)
plt.xticks(y_pos, x)
plt.show()
data:image/s3,"s3://crabby-images/1576c/1576c259132f4a596e3187fb1f39f90e29c409f9" alt="Screen Shot 2018-06-06 at 18.09.53.png"
時間軸による比較
時間軸が少ない場合
カテゴリが1つもしくは数個の場合|棒グラフ
x = [1, 2, 3, 4, 5]
y = [80, 60, 40, 20, 5]
plt.bar(x, y)
plt.show()
data:image/s3,"s3://crabby-images/1966e/1966eb475097ca6bf1f9330b8d4466fa0faee2ea" alt="Screen Shot 2018-06-06 at 18.10.03.png"
カテゴリが多い場合|線グラフ
x = range(1,11)
y1 = np.random.randn(10)
y2 = np.random.randn(10)+range(1,11)
y3 = np.random.randn(10)+range(11,21)
plt.plot(x, y1)
plt.plot(x, y2)
plt.plot(x, y3)
plt.show()
data:image/s3,"s3://crabby-images/9a086/9a086dcbd81ee95d93a806a6389b8b986ce1261a" alt="Screen Shot 2018-06-06 at 18.10.25.png"
時間軸が多い場合
非循環データの場合|線グラフ
y = np.cumsum(np.random.randn(1000,1))
plt.plot(y)
data:image/s3,"s3://crabby-images/ca09b/ca09bd7752966fc62b31bbfcf7699d0ced1c1ba1" alt="Screen Shot 2018-06-06 at 18.10.20.png"