導入
業務で使うレベルではないですが、データから的確な戦略に落として経営の戦略を策定していく、データサイエンティストというキーワードに憧れて、seabornの勉強を始めました。
最短でグラフを出力するところまでやってみました。
code
introduction.py
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
tips = sns.load_dataset("tips")
sns.relplot(x="total_bill", y="tip", col="time",
hue="smoker", style="smoker", size="size",
data=tips);
plt.show()
出力されるグラフ
データの中身
total_bill | tip | sex | smoker | day | time | size |
---|---|---|---|---|---|---|
16.99 | 1.01 | Female | No | Sun | Dinner | 2 |
10.34 | 1.66 | Male | No | Sun | Dinner | 3 |
21.01 | 3.50 | Male | No | Sun | Dinner | 3 |
23.68 | 3.31 | Male | No | Sun | Dinner | 2 |
24.59 | 3.61 | Female | No | Sun | Dinner | 4 |
25.29 | 4.71 | Male | No | Sun | Dinner | 4 |
tips = sns.load_dataset("tips")
で定義されるテストデータがなんのデータを表しているのか?
たくさん調べましたが、たどり着くことができませんでした。
予測ですが、レストランの来客情報で、かつ、tipがあるので、英語圏のデータだと予測しています。
LunchとDinnerにおける、total_billとtipの相関をrelplotで確認することができました。