背景
- pythonで機械学習や簡単なデータを操作をする時にscikit-learn(以下 sk-learn)のdatasetsはよく使用する。
- Iris(植物のアヤメ)のデータセットが一番有名な気がするが他にもsk-learnのデータセットがある。
- ちょっとしたデータを使いたい時の備忘録として、データを紹介する。
目標
- scikit-learnのToy datasetsを紹介する
sk-learnのデータ構成
- sk-learnのdatasetsは大分類として4種類ある。
項目 | 説明 |
---|---|
Toy datasets | sk-learnに内包されている簡単なデータセット |
Real world datasets | DLが必要な容量が大きいデータセット |
Generated datasets | 人工的に生成されたデータセット |
Loading other datasets | その他のデータセット |
sk-learnのToy datasets
- sk-learnに内包されている、Toy datasetsについて軽く紹介する。
項目 | 説明 |
---|---|
Boston house prices dataset | ボストンの住宅価格データセット |
Iris plants dataset | 植物のアヤメのデータセット |
Diabetes dataset | 糖尿病のデータセット |
Optical recognition of handwritten digits dataset | 手書き数字のデータセット |
Linnerrud dataset | 運動と生理学的データセット |
Wine recognition dataset | ワインの品質データセット |
Breast cancer wisconsin (diagnostic) dataset | 乳がんデータセット |
補足
- 今後、他のデータセットについても紹介を追加したい。
- 各データセットを簡単に可視化分析した記事を書きたい
参考資料
個人ブログ