More than 1 year has passed since last update.

Qiita全国学生対抗戦 Advent Calendar 2023

seabornのサンプルデータセット

Posted at 2023-12-18

scikit-learnには、アヤメのデータセットなどのサンプルデータセットがあります。
seabornにも、scikit-learnと同様にサンプルデータセットがあります。
今回は、seabornに付属しているデータセットを紹介します。
データセットはseaborn.load_datasetを用いて読み込むことができます。

データセットの表示

seaborn.get_dataset_names()を用いて、利用できるデータセットを表示することができます。

import seaborn as sns
sns.get_dataset_names()

['anagrams',
 'anscombe',
 'attention',
 'brain_networks',
 'car_crashes',
 'diamonds',
 'dots',
 'dowjones',
 'exercise',
 'flights',
 'fmri',
 'geyser',
 'glue',
 'healthexp',
 'iris',
 'mpg',
 'penguins',
 'planets',
 'seaice',
 'taxis',
 'tips',
 'titanic']

22のデータセットを利用できることがわかりました。

anagrams

anagramsは20人の被験者が注意を分散または集中させながらアナグラムを学習する記憶課題を行う心理学実験から作成されたデータセットです。

df = sns.load_dataset("anagrams")
df.head()

anscombe

anscombeはアンスコムの例についてのデータセットです。

df = sns.load_dataset("anscombe")
df.head()

attention

attentionは20人の被験者が注意を分散または集中させながらアナグラムを学習する記憶課題を行う心理学実験から作成されたデータセットです。
anagramsとは異なる形式です。

df = sns.load_dataset("attention")
df.head()

car_crashes

car_crashesはFiveThirtyEightのBad Driversについてのデータセットです。

df = sns.load_dataset("car_crashes")
df.head()

diamonds

diamondsは53940個のダイヤモンドの価格や他の属性を含むデータセットです。

df = sns.load_dataset("diamonds")
df.head()

dots

dotsはニューロンの発火率に関するデータセットです。

df = sns.load_dataset("dots")
df.head()

dowjones

dowjonesはダウ・ジョーンズについての株価のデータセットです。

df = sns.load_dataset("dowjones")
df.head()

exercise

exerciseは説明を見つけることができなかったのですが、脈拍についてのデータセットと思われます。

df = sns.load_dataset("exercise")
df.head()

fmri

fmriはfMRIに関するデータセットです。

df = sns.load_dataset("fmri")
df.head()

geyser

geyserはアメリカのワイオミング州のイエローストーン国立公園にあるオールド・フェイスフル・ガイザーの噴火の間隔時間と継続時間です。

df = sns.load_dataset("geyser")
df.head()

glue

glueは自然言語処理モデルの精度を測るベンチマークであるGLUEのデータセットです。

df = sns.load_dataset("glue")
df.head()

healthexp

healthexpは平均寿命と医療支出のデータセットです。

df = sns.load_dataset("healthexp")
df.head()

iris

irisはアヤメのデータセットです。

df = sns.load_dataset("iris")
df.head()

mpg

mpgは自動車の価格と機能のデータセットです。

df = sns.load_dataset("mpg")
df.head()

penguins

penguinsはペンギンについてのデータセットです。

df = sns.load_dataset("penguins")
df.head()

planets

planetsは惑星についてのデータセットです。

df = sns.load_dataset("planets")
df.head()

seaice

seaiceは海氷についてのデータセットです。

df = sns.load_dataset("seaice")
df.head()

taxis

taxisはタクシーのデータセットです。

df = sns.load_dataset("taxis")
df.head()

tips

tipsは、ウェイターがレストランで数か月間働いて受け取ったチップに関するデータセットです。

df = sns.load_dataset("tips")
df.head()

titanic

titanicはタイタニックのデータセットです。

df = sns.load_dataset("titanic")
df.head()

seabornには、様々なデータセットが付属していることがわかりました。
データ分析を勉強する方のサンプルデータセットとしておすすめです。

参考文献

https://seaborn.pydata.org/tutorial/data_structure.html
https://en.wikipedia.org/wiki/Anscombe%27s_quartet
https://www.kaggle.com/datasets/fivethirtyeight/fivethirtyeight-bad-drivers-dataset
https://ggplot2.tidyverse.org/reference/diamonds.html
https://shadlenlab.columbia.edu/resources/RoitmanDataCode.html
https://fred.stlouisfed.org/series/M1109BUSM293NNBR
https://www.tfu.ac.jp/research/gp2014_01/explanation.html
https://github.com/mwaskom/Waskom_CerebCortex_2017
https://www.tfu.ac.jp/research/gp2014_01/explanation.html
https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/faithful.html
https://gluebenchmark.com/leaderboard
https://zero2one.jp/ai-word/glue/
https://ourworldindata.org/grapher/life-expectancy-vs-health-expenditure
https://data.world/dataman-udit/cars-data
https://github.com/allisonhorst/palmerpenguins
https://exoplanets.nasa.gov/discovery/exoplanet-catalog/
https://nsidc.org/arcticseaicenews/sea-ice-tools/
https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page
https://rdrr.io/cran/reshape2/man/tips.html
https://www.kaggle.com/c/titanic/data

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up