2
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

scikit-learnには、アヤメのデータセットなどのサンプルデータセットがあります。
seabornにも、scikit-learnと同様にサンプルデータセットがあります。
今回は、seabornに付属しているデータセットを紹介します。
データセットはseaborn.load_datasetを用いて読み込むことができます。

データセットの表示

seaborn.get_dataset_names()を用いて、利用できるデータセットを表示することができます。

import seaborn as sns
sns.get_dataset_names()
['anagrams',
 'anscombe',
 'attention',
 'brain_networks',
 'car_crashes',
 'diamonds',
 'dots',
 'dowjones',
 'exercise',
 'flights',
 'fmri',
 'geyser',
 'glue',
 'healthexp',
 'iris',
 'mpg',
 'penguins',
 'planets',
 'seaice',
 'taxis',
 'tips',
 'titanic']

22のデータセットを利用できることがわかりました。

anagrams

anagramsは20人の被験者が注意を分散または集中させながらアナグラムを学習する記憶課題を行う心理学実験から作成されたデータセットです。

df = sns.load_dataset("anagrams")
df.head()

スクリーンショット 2023-12-17 23.07.04.png

anscombe

anscombeはアンスコムの例についてのデータセットです。

df = sns.load_dataset("anscombe")
df.head()

スクリーンショット 2023-12-17 23.07.51.png

attention

attentionは20人の被験者が注意を分散または集中させながらアナグラムを学習する記憶課題を行う心理学実験から作成されたデータセットです。
anagramsとは異なる形式です。

df = sns.load_dataset("attention")
df.head()

スクリーンショット 2023-12-17 23.08.16.png

car_crashes

car_crashesはFiveThirtyEightのBad Driversについてのデータセットです。

df = sns.load_dataset("car_crashes")
df.head()

スクリーンショット 2023-12-17 23.08.47.png

diamonds

diamondsは53940個のダイヤモンドの価格や他の属性を含むデータセットです。

df = sns.load_dataset("diamonds")
df.head()

スクリーンショット 2023-12-17 23.12.25.png

dots

dotsはニューロンの発火率に関するデータセットです。

df = sns.load_dataset("dots")
df.head()

スクリーンショット 2023-12-17 23.17.58.png

dowjones

dowjonesはダウ・ジョーンズについての株価のデータセットです。

df = sns.load_dataset("dowjones")
df.head()

スクリーンショット 2023-12-17 23.22.35.png

exercise

exerciseは説明を見つけることができなかったのですが、脈拍についてのデータセットと思われます。

df = sns.load_dataset("exercise")
df.head()

スクリーンショット 2023-12-17 23.26.18.png

fmri

fmriはfMRIに関するデータセットです。

df = sns.load_dataset("fmri")
df.head()

スクリーンショット 2023-12-17 23.32.25.png

geyser

geyserはアメリカのワイオミング州のイエローストーン国立公園にあるオールド・フェイスフル・ガイザーの噴火の間隔時間と継続時間です。

df = sns.load_dataset("geyser")
df.head()

スクリーンショット 2023-12-17 23.34.41.png

glue

glueは自然言語処理モデルの精度を測るベンチマークであるGLUEのデータセットです。

df = sns.load_dataset("glue")
df.head()

スクリーンショット 2023-12-17 23.35.16.png

healthexp

healthexpは平均寿命と医療支出のデータセットです。

df = sns.load_dataset("healthexp")
df.head()

スクリーンショット 2023-12-17 23.40.48.png

iris

irisはアヤメのデータセットです。

df = sns.load_dataset("iris")
df.head()

スクリーンショット 2023-12-17 23.43.21.png

mpg

mpgは自動車の価格と機能のデータセットです。

df = sns.load_dataset("mpg")
df.head()

スクリーンショット 2023-12-17 23.44.37.png

penguins

penguinsはペンギンについてのデータセットです。

df = sns.load_dataset("penguins")
df.head()

スクリーンショット 2023-12-17 23.46.52.png

planets

planetsは惑星についてのデータセットです。

df = sns.load_dataset("planets")
df.head()

スクリーンショット 2023-12-17 23.51.04.png

seaice

seaiceは海氷についてのデータセットです。

df = sns.load_dataset("seaice")
df.head()

スクリーンショット 2023-12-17 23.54.58.png

taxis

taxisはタクシーのデータセットです。

df = sns.load_dataset("taxis")
df.head()

スクリーンショット 2023-12-17 23.56.20.png

tips

tipsは、ウェイターがレストランで数か月間働いて受け取ったチップに関するデータセットです。

df = sns.load_dataset("tips")
df.head()

スクリーンショット 2023-12-18 0.01.30.png

titanic

titanicはタイタニックのデータセットです。

df = sns.load_dataset("titanic")
df.head()

スクリーンショット 2023-12-18 0.02.54.png

seabornには、様々なデータセットが付属していることがわかりました。
データ分析を勉強する方のサンプルデータセットとしておすすめです。

参考文献

https://seaborn.pydata.org/tutorial/data_structure.html
https://en.wikipedia.org/wiki/Anscombe%27s_quartet
https://www.kaggle.com/datasets/fivethirtyeight/fivethirtyeight-bad-drivers-dataset
https://ggplot2.tidyverse.org/reference/diamonds.html
https://shadlenlab.columbia.edu/resources/RoitmanDataCode.html
https://fred.stlouisfed.org/series/M1109BUSM293NNBR
https://www.tfu.ac.jp/research/gp2014_01/explanation.html
https://github.com/mwaskom/Waskom_CerebCortex_2017
https://www.tfu.ac.jp/research/gp2014_01/explanation.html
https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/faithful.html
https://gluebenchmark.com/leaderboard
https://zero2one.jp/ai-word/glue/
https://ourworldindata.org/grapher/life-expectancy-vs-health-expenditure
https://data.world/dataman-udit/cars-data
https://github.com/allisonhorst/palmerpenguins
https://exoplanets.nasa.gov/discovery/exoplanet-catalog/
https://nsidc.org/arcticseaicenews/sea-ice-tools/
https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page
https://rdrr.io/cran/reshape2/man/tips.html
https://www.kaggle.com/c/titanic/data

2
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?