scikit-learnには、アヤメのデータセットなどのサンプルデータセットがあります。
seabornにも、scikit-learnと同様にサンプルデータセットがあります。
今回は、seabornに付属しているデータセットを紹介します。
データセットはseaborn.load_datasetを用いて読み込むことができます。
データセットの表示
seaborn.get_dataset_names()を用いて、利用できるデータセットを表示することができます。
import seaborn as sns
sns.get_dataset_names()
['anagrams',
'anscombe',
'attention',
'brain_networks',
'car_crashes',
'diamonds',
'dots',
'dowjones',
'exercise',
'flights',
'fmri',
'geyser',
'glue',
'healthexp',
'iris',
'mpg',
'penguins',
'planets',
'seaice',
'taxis',
'tips',
'titanic']
22のデータセットを利用できることがわかりました。
anagrams
anagramsは20人の被験者が注意を分散または集中させながらアナグラムを学習する記憶課題を行う心理学実験から作成されたデータセットです。
df = sns.load_dataset("anagrams")
df.head()
anscombe
anscombeはアンスコムの例についてのデータセットです。
df = sns.load_dataset("anscombe")
df.head()
attention
attentionは20人の被験者が注意を分散または集中させながらアナグラムを学習する記憶課題を行う心理学実験から作成されたデータセットです。
anagramsとは異なる形式です。
df = sns.load_dataset("attention")
df.head()
car_crashes
car_crashesはFiveThirtyEightのBad Driversについてのデータセットです。
df = sns.load_dataset("car_crashes")
df.head()
diamonds
diamondsは53940個のダイヤモンドの価格や他の属性を含むデータセットです。
df = sns.load_dataset("diamonds")
df.head()
dots
dotsはニューロンの発火率に関するデータセットです。
df = sns.load_dataset("dots")
df.head()
dowjones
dowjonesはダウ・ジョーンズについての株価のデータセットです。
df = sns.load_dataset("dowjones")
df.head()
exercise
exerciseは説明を見つけることができなかったのですが、脈拍についてのデータセットと思われます。
df = sns.load_dataset("exercise")
df.head()
fmri
fmriはfMRIに関するデータセットです。
df = sns.load_dataset("fmri")
df.head()
geyser
geyserはアメリカのワイオミング州のイエローストーン国立公園にあるオールド・フェイスフル・ガイザーの噴火の間隔時間と継続時間です。
df = sns.load_dataset("geyser")
df.head()
glue
glueは自然言語処理モデルの精度を測るベンチマークであるGLUEのデータセットです。
df = sns.load_dataset("glue")
df.head()
healthexp
healthexpは平均寿命と医療支出のデータセットです。
df = sns.load_dataset("healthexp")
df.head()
iris
irisはアヤメのデータセットです。
df = sns.load_dataset("iris")
df.head()
mpg
mpgは自動車の価格と機能のデータセットです。
df = sns.load_dataset("mpg")
df.head()
penguins
penguinsはペンギンについてのデータセットです。
df = sns.load_dataset("penguins")
df.head()
planets
planetsは惑星についてのデータセットです。
df = sns.load_dataset("planets")
df.head()
seaice
seaiceは海氷についてのデータセットです。
df = sns.load_dataset("seaice")
df.head()
taxis
taxisはタクシーのデータセットです。
df = sns.load_dataset("taxis")
df.head()
tips
tipsは、ウェイターがレストランで数か月間働いて受け取ったチップに関するデータセットです。
df = sns.load_dataset("tips")
df.head()
titanic
titanicはタイタニックのデータセットです。
df = sns.load_dataset("titanic")
df.head()
seabornには、様々なデータセットが付属していることがわかりました。
データ分析を勉強する方のサンプルデータセットとしておすすめです。
参考文献
https://seaborn.pydata.org/tutorial/data_structure.html
https://en.wikipedia.org/wiki/Anscombe%27s_quartet
https://www.kaggle.com/datasets/fivethirtyeight/fivethirtyeight-bad-drivers-dataset
https://ggplot2.tidyverse.org/reference/diamonds.html
https://shadlenlab.columbia.edu/resources/RoitmanDataCode.html
https://fred.stlouisfed.org/series/M1109BUSM293NNBR
https://www.tfu.ac.jp/research/gp2014_01/explanation.html
https://github.com/mwaskom/Waskom_CerebCortex_2017
https://www.tfu.ac.jp/research/gp2014_01/explanation.html
https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/faithful.html
https://gluebenchmark.com/leaderboard
https://zero2one.jp/ai-word/glue/
https://ourworldindata.org/grapher/life-expectancy-vs-health-expenditure
https://data.world/dataman-udit/cars-data
https://github.com/allisonhorst/palmerpenguins
https://exoplanets.nasa.gov/discovery/exoplanet-catalog/
https://nsidc.org/arcticseaicenews/sea-ice-tools/
https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page
https://rdrr.io/cran/reshape2/man/tips.html
https://www.kaggle.com/c/titanic/data