はじめに
私はいまデータ分析コンペNishikaを利用して勉強しています。
その中で、Matplotlib
を使った可視化は普段あまり行うことがなかったため、わからないことが多く、少し複雑なグラフになるとどうやって描画したらよいかわからなくなってしまいます。
今回私が行いたいと思っていた可視化は、以下のDataFrameに対して、
都道府県ごとにx="建物の構造"、y="取引価格"で箱ひげ図
を描画することです。
seaborn
をあまり使った経験がなく、subplot
を使ってどのようにするかがわからず、詳しい方に聞きましたので、そちらについてまとめたいと思います。
可視化の手順
1. 都道府県名のリストを用意
pref_list = df["都道府県名"].tolist()
pref_list = set(pref_list)
to_list
で都道府県名の列の要素をリストに変換して、set
で重複を除いています。
こうすることで、47都道府県の名前が入ります。
print(len(pref_list))
# => 47
2. グラフを描画する準備
# 箱ひげ図につかうライブラリの用意
import seaborn as sns
# 47都道府県なので、70×50のグラフに7×7(=49)の枠を用意
fig, ax = plt.subplots(7, 7, figsize=(70, 50), sharey=True)
3. 箱ひげ図の描画
for i, pref in enumerate(pref_list):
sns.boxplot(
x='建物の構造', y='取引価格(総額)_log',
data=df[df.都道府県名==pref].sort_values('建物の構造'),
ax=ax[divmod(i, 7)])\
.set(title=pref, xlabel=None, ylim=(2,10))
都道府県名のリストの要素1つずつ(pref)を使ってfor分で処理をします。
sns.boxplot
で箱ひげ図を作ることができます。
xに建物の構造、yに取引価格
dataに都道府県名がprefと同じ行をすべて抽出して、建物の構造でソートしたものを渡します。
渡されたdataの"建物の構造"と"取引価格"のカラムを利用して箱ひげ図を作るように設定しました。
axの引数にどの枠にグラフを描画するかを選択します。
axはax[7][7]の49枠があり、各枠に各県ごとに入れていきたいです。
そこで、divmod(i,7)
を利用します。
divmodは割り算の商と余りをタプルで返す関数です。
また、axはタプルを利用することが可能です。
たとえば、1つ目の県は
divmod(0, 7) = (0, 0)となりax[0][0]に入ります。
2つ目の県は、divmod(1,7) = (0, 1)となり、ax[0][1]にはいります。
このようにすることで各県をそれぞれの枠に描画することが可能です。
そのあとでset
を利用することで、それぞれのグラフにタイトル
とylim
でy軸の範囲を決めています。
4. 不要な枠を削除する
47都道府県に対して、49個の枠が用意されているため最後の2つを描画しないように設定します。
for i in range(len(pref_list)-7*7, 0):
ax[-1, i].axis('off')
最後から、2個目までを非表示にします。
すると以下のようなグラフができました。
plt.show()
最後の2つも描画されていません。
サンプルコード
最後にこの手順を簡単な例で試せるようにコードを載せます。
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import seaborn as sns
# データフレームの準備
pref = ["東京", "東京", "東京", "埼玉", "埼玉", "埼玉", "東京", "東京", "埼玉", "埼玉"]
house = ["木造", "鉄骨", "木造", "鉄骨", "木造", "鉄骨", "鉄骨", "鉄骨", "木造", "木造"]
value = [100, 120, 100, 80, 80, 90, 90, 130, 100, 60]
df = pd.DataFrame({'都道府県':pref, '建物': house, '価格':value})
index | 都道府県 | 建物 | 価格 |
---|---|---|---|
0 | 東京 | 木造 | 100 |
1 | 東京 | 鉄骨 | 120 |
2 | 東京 | 木造 | 100 |
3 | 埼玉 | 鉄骨 | 80 |
4 | 埼玉 | 木造 | 80 |
5 | 埼玉 | 鉄骨 | 90 |
6 | 東京 | 鉄骨 | 90 |
7 | 東京 | 鉄骨 | 130 |
8 | 埼玉 | 木造 | 100 |
9 | 埼玉 | 木造 | 60 |
このデータフレームに対して、都道府県ごとに、x=建物、y=価格で箱ひげ図を作ります。
fig, ax = plt.subplots(1, 2, figsize=(10, 5))
ylim = (50, 150)
df = df.sort_values(['都道府県', '建物'])
for i, p in enumerate(('東京', '埼玉')):
sns.boxplot(
x='建物', y='価格', data=df[df.都道府県==p], ax=ax[i])\
.set(xlabel=p, ylim=ylim)
plt.show()
すると以下のような箱ひげ図が描画されます。
おわりに
今回はseabornで複数描画する方法について説明しました。
このやり方はteratailやstackoverflowで回答をいただき、それをいいところ取りしたものになります。
他にもやり方はあり、多くの回答をいただいていますのでぜひとも参考にしてみてください。