1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

PythonAdvent Calendar 2023

Day 17

plotnineのサンプルデータセット

Posted at

scikit-learnには、アヤメのデータセットなどのサンプルデータセットがあります。
plotnineにも、scikit-learnと同様にサンプルデータセットがあります。
今回は、plotnineに付属しているデータセットを紹介します。

diamonds

diamondsは、53940個のダイヤモンドの価格や他の属性を含むデータセットです。

from plotnine.data import diamonds
diamonds.head()
carat cut color clarity depth table price x y z
0 0.23 Ideal E SI2 61.5 55.0 326 3.95 3.98 2.43
1 0.21 Premium E SI1 59.8 61.0 326 3.89 3.84 2.31
2 0.23 Good E VS1 56.9 65.0 327 4.05 4.07 2.31
3 0.29 Premium I VS2 62.4 58.0 334 4.20 4.23 2.63
4 0.31 Good J SI2 63.3 58.0 335 4.34 4.35 2.75

economics

economicsはアメリカの経済時系列データから作成されたデータセットです。
economicsはワイドフォーマット、economics_longはロングフォーマットです。

from plotnine.data import economics
economics.head()
date pce pop psavert uempmed unemploy
0 1967-07-01 507.4 198712 12.5 4.5 2944
1 1967-08-01 510.5 198911 12.5 4.7 2945
2 1967-09-01 516.3 199113 11.7 4.6 2958
3 1967-10-01 512.9 199311 12.5 4.9 3143
4 1967-11-01 518.1 199498 12.5 4.7 3066

economics_long

economics_longはアメリカの経済時系列データから作成されたデータセットです。
economicsはワイドフォーマット、economics_longはロングフォーマットです。

from plotnine.data import economics_long
economics_long.head()
date variable value value01
0 1967-07-01 pce 507.4 0.000000
1 1967-08-01 pce 510.5 0.000266
2 1967-09-01 pce 516.3 0.000764
3 1967-10-01 pce 512.9 0.000472
4 1967-11-01 pce 518.1 0.000918

faithful

faithfulはアメリカのワイオミング州のイエローストーン国立公園にあるオールド・フェイスフル・ガイザーの噴火の間隔時間と継続時間です。

from plotnine.data import faithful
faithful.head()
eruptions waiting
0 3.600 79
1 1.800 54
2 3.333 74
3 2.283 62
4 4.533 85

faithfuld

faithfuldはアメリカのワイオミング州のイエローストーン国立公園にあるオールド・フェイスフル・ガイザーの噴火の間隔時間と継続時間です。

from plotnine.data import faithfuld
faithfuld.head()
eruptions waiting density
0 1.600000 43.0 0.003216
1 1.647297 43.0 0.003835
2 1.694595 43.0 0.004436
3 1.741892 43.0 0.004978
4 1.789189 43.0 0.005424

huron

hunonは1875-1972年のヒューロン湖のレベルのデータセットです。

from plotnine.data import huron
huron.head()
year level decade
0 1875 580.38 1870
1 1876 581.86 1870
2 1877 580.97 1870
3 1878 580.80 1870
4 1879 579.79 1870

luv_colours

luv_coloursは名前がついた色をLuv色空間に変換したデータセットです。

from plotnine.data import luv_colours
luv_colours.head()
L u v col
0 9341.570222 -3.370649e-12 0.000000 white
1 9100.962053 -4.749170e+02 -635.350249 aliceblue
2 8809.518191 1.008865e+03 1668.004214 antiquewhite
3 8935.225481 1.065698e+03 1674.594790 antiquewhite1
4 8452.498771 1.014911e+03 1609.592311 antiquewhite2

midwest

midwestはアメリカ中西部の人口統計情報です。

from plotnine.data import midwest
midwest.head(https://plotnine.readthedocs.io/en/stable/generated/plotnine.data.midwest.html#plotnine.data.midwest)

出力は28列あるため省略します。

mpg

mpgは38の人気車種の1999年と2008年の燃費のデータセットです。

from plotnine.data import mpg
mpg.head()

出力は11列あるため省略します。

msleep

msleepは哺乳類の睡眠のデータセットです。

from plotnine.data import msleep
msleep.head()

出力は11列あるため省略します。

mtcars

mtcarsは32の自動車(1973-74モデル)の燃費と、自動車のデザインと性能の10の側面を含むデータセットです。

from plotnine.data import mtcars
mtcars.head()

出力は11列あるため省略します。

presidential

presidentialはアイゼンハワーからオバマまでの11人のアメリカ大統領の名前、任期の開始日と終了日、政党のデータセットです。

from plotnine.data import presidential
presidential.head()
name start end party
0 Eisenhower 1953-01-20 1961-01-20 Republican
1 Kennedy 1961-01-20 1963-11-22 Democratic
2 Johson 1963-11-22 1969-01-20 Democratic
3 Nixon 1969-01-20 1974-08-09 Republican
4 Ford 1974-08-09 1977-01-20 Republican

seals

sealsはアザラシの動きのベクトル場のデータセットです。

from plotnine.data import seals
seals.head()
lat long delta_long delta_lat
0 29.7 -172.8 -0.915046 0.143475
1 30.7 -172.8 -0.867013 0.128389
2 31.7 -172.8 -0.818925 0.113232
3 32.7 -172.8 -0.770776 0.098020
4 33.7 -172.8 -0.722560 0.082766

txhousing

txhousingはテキサス州の住宅市場のデータセットです。

from plotnine.data import txhousing
txhousing.head()
city year month sales volume median listings inventory date
0 Abilene 2000 1 72.0 5380000.0 71400.0 701.0 6.3 2000.000000
1 Abilene 2000 2 98.0 6505000.0 58700.0 746.0 6.6 2000.083333
2 Abilene 2000 3 130.0 9285000.0 58100.0 784.0 6.8 2000.166667
3 Abilene 2000 4 98.0 9730000.0 68600.0 785.0 6.9 2000.250000
4 Abilene 2000 5 141.0 10590000.0 67300.0 794.0 6.8 2000.333333

meatとpageviewsは説明がなかったため省略しました。
plotnineには、様々なデータセットが付属していることがわかりました。
データ分析を勉強する方のサンプルデータセットとしておすすめです。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?