機械学習の学ぶとき、まず最初に取り掛かるのは表形式のデータであることが多いと思います。
その時使うデータって、以下のようなものが多いのではないでしょうか。
- Titanic
- Iris
- Boston Housing
- Wine
- Breast Cancer
これらのデータを使って機械学習の手法やテクニックを覚えた後は、色々なデータを使って覚えた手法を試したくなります。
ですが、ちょうどよいデータってなかなか見つからず、データを探しているうちに勉強熱が冷めることもしばしば。。
特に教員をやっていると、学生向けに演習問題をたくさん用意したいのですが、その題材が見つからないといったことが頻繁に起こります。
そこで、kaggleにある表形式のデータセットの中から初心者向きそうだと感じたものをいくつか調べました。
皆さんの機械学習の勉強や、誰かに教える際の演習問題の材料として参考にしてください。
コメントは自分用のメモなので、あくまで参考程度に。
また分析した結果をまとめたnotebookは以下から取得できます。
この他にも有用なデータセットをご存じでしたら教えていただければ幸いです。
UFO Sightings
- 分類問題、ただし難易度は相当高そう
- 欠損値あり。いくつかの特徴量に少量のずつ
- ほとんどがカテゴリカルデータのため、ラベルエンコーディング、Onehotエンコーディングの練習に向いてる
- datetimeから年/月/日の分離やさらに周期性を考慮したsin,cos変換などやっても面白そう
Possum Regression
- 正解ラベルをどれにするか指定はないが、分類問題向き
- いくつかの特徴量に少量の欠損値あり
- カテゴリカルデータは2項目
- データ数が少ないためか、機械学習を行ってもあまり精度が出ない印象
- このデータで分析した他人のコードで、データの歪みによる影響とboxcox変換を初めて知った
Logistic Regression
- 分類問題(2クラス)
- 名前の通り、ロジスティック回帰(線形分離)で解ける小規模データセット
- 欠損値なしでラベル項目は1つなので、前処理は簡単
- データの標準化で精度が上がることを確認できる良い例
Revisiting a Concrete Strength regression
- 回帰問題
- 欠損値なし、カテゴリカルデータなし
- 形式としては、Boston Housingと同じ
- ただし、線形モデルでは精度が上がらないので、適切なモデル選択の重要性を示す具体例として使えそう
Medical Cost Personal Datasets
- 回帰問題
- 欠損値なし
- カテゴリカルデータは3つ。一つはOnehot向きで残りは0-1変数
- PCAで寄与率80%で切ってから回帰やったら精度が極端に落ちた
Car Price Prediction Multiple Linear Regression
- 回帰問題
- 欠損値はなし
- カテゴリカルデータが多い。前処理が大変。
- カテゴリのエンコーディングは、車の知識があると適切な手法を選べそう。
- CarNameからメーカー名を取るなどすると良いかも
Red Wine Quality
- 分類問題(多クラス)
- いわゆるWine問題とは別だが、やってることはほぼ同じ
- 欠損値もカテゴリカルデータもないので、すぐに機械学習を実行可能
- さらっと試した感じだと精度が出ない(60%程度)。標準化、PCAを試してもあまり変化なし
Human Resources Data Set
- 回帰問題(パフォーマンスを予測する場合)
- 欠損値あり(ManagerIDの欠損値の処理は初心者向けのいい題材)
- 列数が多いので、相関係数などの分析から特徴量の絞り込みが必要
- 適当にやると、全然精度が上がらない
Collection of Classification & Regression Datasets
分類問題、回帰問題に使えるデータセットの詰め合わせ
使えそうなデータがいくつかあるものの、列の説明がないので列名から推測するしかないのが難点
詰め合わせの中から使えそうなものを抜粋
canada_per_capita
- 回帰問題
- 1変数のため単回帰分析
- 欠損値なし
- PipelineとPolynomialFeaturesを使って多項式回帰を使ういい勉強になった。
daily-min-temperatures
- 回帰問題
- 欠損値なし
- 唯一の変数はDateのみ、これをどう扱うか
- 時系列予測として、LSTMやTransformerにかけるのが定石か
- 試しに月、日をsin,cos変換したけど精度は悪かった
House_price
- 回帰問題
- 欠損値は1列のみあり
- カテゴリカルデータは3つ。waterbodyのエンコーディングは少し工夫できそう
- いくつかのデータが歪んでいるので、boxcox変換も有効かも
MBA Admissions
- 回帰も分類も可能
- 欠損値はなし
- カテゴリカルデータは列全体の約半数
- Gender, Marital_statusをGradientBoostingで分類したところ100%を出せた
Movie classification
- 名前から分かる通り分類問題(2クラス)
- 欠損値は1列だけ、欠損値の個数も少なめ
- カテゴリカルデータは2つ
- 精度はどの手法でも50%程度、他の人のコードによるとLightGBM使うと70%くらいは出せる
→ 調整したら、LogisticRegressionで65%出せた - Start_Tech_Oscarって何??
Movie Regression
- 上の回帰Ver、target以外はすべて同じ
us-airlines-monthly-aircraft-miles-flown
- 回帰問題(時系列)
- 欠損値なし
- 唯一の特徴量が年月を表す文字列
- 折れ線グラフにすると季節性とトレンドがわかりやすく見れる
Life Expectancy (WHO)
- 回帰問題
- 殆どの列に欠損値あり。行で見ても4割近くが欠損あり。ただし中央値埋めでも結構精度出る
- カテゴリカルデータは国名ともう一つ。
- 国の貧富、教育と寿命の相関が見えるのが興味深い
Stroke Prediction
- 分類問題(2クラス)
- 欠損値は1列だけ。全体の3%程度の行数
- カテゴリカルデータは全体の3~4割程度
- 陽性クラスと陰性クラスのデータ数が大きく異なる(1:19)。
- 考えずにやると、accuracyは9割超えだが、全部陰性と予測しただけとなる典型例
- 教師なし異常検知などの題材としても良さそう
Mushroom Classification
- 分類問題(2クラス)
- 欠損値はなし
- すべてがカテゴリカルデータという変わったデータ
- 何も考えずに全列One-hotエンコーディングしたら、結構良い結果が出た。
Mobile Price Classification
- 分類問題(多クラス)? (名前は分類だけど、たぶん回帰で解いても良さそう)
- 欠損値なし
- カテゴリカルデータなし
- 標準化してからLogisticRegressionですると、格段に精度が上がった
HR Analytics: Job Change of Data Scientists
- 分類問題(2クラス)
- 別で紹介したHuman Resources Data Setとは違うが同じヒューマンリソース系
- 欠損値あり。しかも、カテゴリカルデータにあるので、扱いが難しい
- カテゴリカルデータは全体の7割程度。
工夫すれば、順序が定まるものもあるので、前処理による性能差が大きそう - 適当に全部one-hotにして7割強程度の精度
RandomForestはPrecisionが0%になるなど、あまり有効ではなかった
Water Quality
- 分類問題(2クラス)
- 欠損値あり(phは重要な指標そうにみえるので、どう扱うかが重要か)
- カテゴリカルデータなし
- 正解率はどの手法も6割程度で思ったより難しい問題らしい
The Complete Pokemon Dataset
- 分類問題(2クラス)? 特に使い方は指定されていないが、伝説ポケモンの判定の使い方はできる
- 欠損値あり
- カテゴリカルデータあり。ポケモンを知っている世代であれば、特徴量を適切に処理できそう。
- 第7世代までの802匹が対象
- 試しにやってみたら、意外と精度が高くてびっくりした
- RandomForestの分類寄与率とかを見るとポケモン好きは興味もちそう
Campus Recruitment
- 分類問題(2クラス)、回帰問題の両方
- 欠損値あり
- カテゴリカルデータはあるが、どれもユニーク数が2~3程度なので、0-1 or one-hotで迷わずできる。
- 適当に作ったモデルでも精度100%達成できた
Airline Passenger Satisfaction
- 分類問題(2クラス)
- 欠損値あり、1特徴量に少量
- ただし、Nanではないものの、アンケートの1~5の5段階評価の中に0(該当なし)がある
- カテゴリカルデータは5つ。全体からするとそこまで多くはない
- RandomForestやGradientBoostingでは正解率が9割を超える
- データ数が多い(>10万件)ためか、SVCは時間がかかりすぎて断念した
Bank Marketing
- 分類問題(2クラス)
- 欠損値なし
- カテゴリカルデータが多く、値のバリエーションが多いのでOne-hotにすると列が多くなりすぎる
- データの重複あり
- 正解ラベルの陽性と陰性に偏りあり(1:9)
- 試しにSMOTEを使ってみたところ、F1値が10%程度改善された(50%→60%)
Glass Classification
- 分類問題(多クラス)
- 欠損値なし
- カテゴリカルデータなし
- データの重複あり
- 分類対象のクラス数が多いため、精度が上がらず8割弱
Fetal Health Classification
- 分類問題(多クラス)
- 欠損値なし
- カテゴリカルデータなし
- 正解ラベルは1,0,-1の3種類だが、読み込み時はfloatで定義されているのでintに変換が必要
- データの重複あり
- 雑にやって精度は9割出せる。
Top Hits Spotify from 2000-2019
- 回帰?(特に正解ラベルとなる列は指定されていない。popularityを予測する場合は回帰)
- 欠損値なし
- カテゴリカルデータは少ないがある
- genre列をダミー変数化する方法はこちらが参考になった
- 解いた結果で決定係数の値がマイナスになった。調べてみるとあり得ることらしいが、モデル化に問題ありそう
Drug Classification
- 分類問題(多クラス)
- 欠損値なし
- カテゴリカルデータは多めだが、そもそも特徴量の数が少ない
- 適当に前処理して実行すると、97%程度の正解率になる
- ここまで実行して初めて知ったが、正解ラベルデータは文字列のまま渡せるのね。。。