scikit-learnには、アヤメのデータセットなどのサンプルデータセットがあります。
plotnineにも、scikit-learnと同様にサンプルデータセットがあります。
今回は、plotnineに付属しているデータセットを紹介します。
diamonds
diamondsは、53940個のダイヤモンドの価格や他の属性を含むデータセットです。
from plotnine.data import diamonds
diamonds.head()
carat | cut | color | clarity | depth | table | price | x | y | z | |
---|---|---|---|---|---|---|---|---|---|---|
0 | 0.23 | Ideal | E | SI2 | 61.5 | 55.0 | 326 | 3.95 | 3.98 | 2.43 |
1 | 0.21 | Premium | E | SI1 | 59.8 | 61.0 | 326 | 3.89 | 3.84 | 2.31 |
2 | 0.23 | Good | E | VS1 | 56.9 | 65.0 | 327 | 4.05 | 4.07 | 2.31 |
3 | 0.29 | Premium | I | VS2 | 62.4 | 58.0 | 334 | 4.20 | 4.23 | 2.63 |
4 | 0.31 | Good | J | SI2 | 63.3 | 58.0 | 335 | 4.34 | 4.35 | 2.75 |
economics
economicsはアメリカの経済時系列データから作成されたデータセットです。
economicsはワイドフォーマット、economics_longはロングフォーマットです。
from plotnine.data import economics
economics.head()
date | pce | pop | psavert | uempmed | unemploy | |
---|---|---|---|---|---|---|
0 | 1967-07-01 | 507.4 | 198712 | 12.5 | 4.5 | 2944 |
1 | 1967-08-01 | 510.5 | 198911 | 12.5 | 4.7 | 2945 |
2 | 1967-09-01 | 516.3 | 199113 | 11.7 | 4.6 | 2958 |
3 | 1967-10-01 | 512.9 | 199311 | 12.5 | 4.9 | 3143 |
4 | 1967-11-01 | 518.1 | 199498 | 12.5 | 4.7 | 3066 |
economics_long
economics_longはアメリカの経済時系列データから作成されたデータセットです。
economicsはワイドフォーマット、economics_longはロングフォーマットです。
from plotnine.data import economics_long
economics_long.head()
date | variable | value | value01 | |
---|---|---|---|---|
0 | 1967-07-01 | pce | 507.4 | 0.000000 |
1 | 1967-08-01 | pce | 510.5 | 0.000266 |
2 | 1967-09-01 | pce | 516.3 | 0.000764 |
3 | 1967-10-01 | pce | 512.9 | 0.000472 |
4 | 1967-11-01 | pce | 518.1 | 0.000918 |
faithful
faithfulはアメリカのワイオミング州のイエローストーン国立公園にあるオールド・フェイスフル・ガイザーの噴火の間隔時間と継続時間です。
from plotnine.data import faithful
faithful.head()
eruptions | waiting | |
---|---|---|
0 | 3.600 | 79 |
1 | 1.800 | 54 |
2 | 3.333 | 74 |
3 | 2.283 | 62 |
4 | 4.533 | 85 |
faithfuld
faithfuldはアメリカのワイオミング州のイエローストーン国立公園にあるオールド・フェイスフル・ガイザーの噴火の間隔時間と継続時間です。
from plotnine.data import faithfuld
faithfuld.head()
eruptions | waiting | density | |
---|---|---|---|
0 | 1.600000 | 43.0 | 0.003216 |
1 | 1.647297 | 43.0 | 0.003835 |
2 | 1.694595 | 43.0 | 0.004436 |
3 | 1.741892 | 43.0 | 0.004978 |
4 | 1.789189 | 43.0 | 0.005424 |
huron
hunonは1875-1972年のヒューロン湖のレベルのデータセットです。
from plotnine.data import huron
huron.head()
year | level | decade | |
---|---|---|---|
0 | 1875 | 580.38 | 1870 |
1 | 1876 | 581.86 | 1870 |
2 | 1877 | 580.97 | 1870 |
3 | 1878 | 580.80 | 1870 |
4 | 1879 | 579.79 | 1870 |
luv_colours
luv_coloursは名前がついた色をLuv色空間に変換したデータセットです。
from plotnine.data import luv_colours
luv_colours.head()
L | u | v | col | |
---|---|---|---|---|
0 | 9341.570222 | -3.370649e-12 | 0.000000 | white |
1 | 9100.962053 | -4.749170e+02 | -635.350249 | aliceblue |
2 | 8809.518191 | 1.008865e+03 | 1668.004214 | antiquewhite |
3 | 8935.225481 | 1.065698e+03 | 1674.594790 | antiquewhite1 |
4 | 8452.498771 | 1.014911e+03 | 1609.592311 | antiquewhite2 |
midwest
midwestはアメリカ中西部の人口統計情報です。
from plotnine.data import midwest
midwest.head(https://plotnine.readthedocs.io/en/stable/generated/plotnine.data.midwest.html#plotnine.data.midwest)
出力は28列あるため省略します。
mpg
mpgは38の人気車種の1999年と2008年の燃費のデータセットです。
from plotnine.data import mpg
mpg.head()
出力は11列あるため省略します。
msleep
msleepは哺乳類の睡眠のデータセットです。
from plotnine.data import msleep
msleep.head()
出力は11列あるため省略します。
mtcars
mtcarsは32の自動車(1973-74モデル)の燃費と、自動車のデザインと性能の10の側面を含むデータセットです。
from plotnine.data import mtcars
mtcars.head()
出力は11列あるため省略します。
presidential
presidentialはアイゼンハワーからオバマまでの11人のアメリカ大統領の名前、任期の開始日と終了日、政党のデータセットです。
from plotnine.data import presidential
presidential.head()
name | start | end | party | |
---|---|---|---|---|
0 | Eisenhower | 1953-01-20 | 1961-01-20 | Republican |
1 | Kennedy | 1961-01-20 | 1963-11-22 | Democratic |
2 | Johson | 1963-11-22 | 1969-01-20 | Democratic |
3 | Nixon | 1969-01-20 | 1974-08-09 | Republican |
4 | Ford | 1974-08-09 | 1977-01-20 | Republican |
seals
sealsはアザラシの動きのベクトル場のデータセットです。
from plotnine.data import seals
seals.head()
lat | long | delta_long | delta_lat | |
---|---|---|---|---|
0 | 29.7 | -172.8 | -0.915046 | 0.143475 |
1 | 30.7 | -172.8 | -0.867013 | 0.128389 |
2 | 31.7 | -172.8 | -0.818925 | 0.113232 |
3 | 32.7 | -172.8 | -0.770776 | 0.098020 |
4 | 33.7 | -172.8 | -0.722560 | 0.082766 |
txhousing
txhousingはテキサス州の住宅市場のデータセットです。
from plotnine.data import txhousing
txhousing.head()
city | year | month | sales | volume | median | listings | inventory | date | |
---|---|---|---|---|---|---|---|---|---|
0 | Abilene | 2000 | 1 | 72.0 | 5380000.0 | 71400.0 | 701.0 | 6.3 | 2000.000000 |
1 | Abilene | 2000 | 2 | 98.0 | 6505000.0 | 58700.0 | 746.0 | 6.6 | 2000.083333 |
2 | Abilene | 2000 | 3 | 130.0 | 9285000.0 | 58100.0 | 784.0 | 6.8 | 2000.166667 |
3 | Abilene | 2000 | 4 | 98.0 | 9730000.0 | 68600.0 | 785.0 | 6.9 | 2000.250000 |
4 | Abilene | 2000 | 5 | 141.0 | 10590000.0 | 67300.0 | 794.0 | 6.8 | 2000.333333 |
meatとpageviewsは説明がなかったため省略しました。
plotnineには、様々なデータセットが付属していることがわかりました。
データ分析を勉強する方のサンプルデータセットとしておすすめです。