0

More than 3 years have passed since last update.

【Python】scikit-learnのToy datasetsの紹介

0

Last updated at 2023-01-04Posted at 2022-09-06

背景

pythonで機械学習や簡単なデータを操作をする時にscikit-learn（以下 sk-learn）のdatasetsはよく使用する。
Iris（植物のアヤメ）のデータセットが一番有名な気がするが他にもsk-learnのデータセットがある。
ちょっとしたデータを使いたい時の備忘録として、データを紹介する。

目標

scikit-learnのToy datasetsを紹介する

sk-learnのデータ構成

sk-learnのdatasetsは大分類として4種類ある。

項目	説明
Toy datasets	sk-learnに内包されている簡単なデータセット
Real world datasets	DLが必要な容量が大きいデータセット
Generated datasets	人工的に生成されたデータセット
Loading other datasets	その他のデータセット

sk-learnのToy datasets

sk-learnに内包されている、Toy datasetsについて軽く紹介する。

項目	説明
Boston house prices dataset	ボストンの住宅価格データセット
Iris plants dataset	植物のアヤメのデータセット
Diabetes dataset	糖尿病のデータセット
Optical recognition of handwritten digits dataset	手書き数字のデータセット
Linnerrud dataset	運動と生理学的データセット
Wine recognition dataset	ワインの品質データセット
Breast cancer wisconsin (diagnostic) dataset	乳がんデータセット

補足

今後、他のデータセットについても紹介を追加したい。
各データセットを簡単に可視化分析した記事を書きたい

参考資料

個人ブログ

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0