はじめに
Adult Income データセットを用いて、LightGBM のベースラインモデルを構築しました。
5-fold CV による AUC は mean = 0.9222(std = 0.0015) でした。
今回は精度比較を主目的とせず、LightGBM における特徴量重要度の見え方を確認します。あわせて、ロジスティック回帰(LR)の係数も提示し、線形モデルと非線形モデルで重要とされる特徴量の違いを整理します。
数値特徴量はそのまま使用し、カテゴリ変数は category 型として LightGBM に入力しています。目的変数は {0,1} に変換しています。
LightGBMの重要度とLR係数
| No | feature | Type | coef | abs_coef |
|---|---|---|---|---|
| 1 | capital-gain | NUM | 2.369197 | 2.369197 |
| 2 | marital-status_Married-civ-spouse | CAT | 0.737401 | 0.737401 |
| 3 | education_Preschool | CAT | -0.542018 | 0.542018 |
| 4 | marital-status_Never-married | CAT | -0.509156 | 0.509156 |
| 5 | education-num | NUM | 0.391563 | 0.391563 |
| 6 | hours-per-week | NUM | 0.376800 | 0.376800 |
| 7 | age | NUM | 0.312555 | 0.312555 |
| 8 | relationship_Own-child | CAT | -0.306367 | 0.306367 |
| 9 | capital-loss | NUM | 0.258429 | 0.258429 |
| 10 | relationship_Wife | CAT | 0.252896 | 0.252896 |
| 11 | occupation_Priv-house-serv | CAT | -0.252376 | 0.252376 |
| 12 | occupation_Other-service | CAT | -0.248173 | 0.248173 |
| 13 | occupation_Exec-managerial | CAT | 0.246674 | 0.246674 |
| 14 | marital-status_Divorced | CAT | -0.225327 | 0.225327 |
| 15 | sex_Male | CAT | 0.196429 | 0.196429 |
| 16 | sex_Female | CAT | -0.196429 | 0.196429 |
| 17 | occupation_Farming-fishing | CAT | -0.186420 | 0.186420 |
| 18 | relationship_Not-in-family | CAT | 0.151212 | 0.151212 |
| 19 | marital-status_Separated | CAT | -0.147457 | 0.147457 |
| 20 | education_Bachelors | CAT | 0.146747 | 0.146747 |
※カテゴリ変数はダミー変数化しており、係数は基準カテゴリとの差として解釈されます。
LGBMでは age が最も高い重要度を示しました。一方で、LRで最も大きな係数を持っていた capital-gain は、LGBMでは相対的に中位に位置しています。
モデル構造の違いにより、重要とされる特徴の見え方が変わることが確認できます。
感想
LGBMでは age や occupation が高い重要度を示しました。一方で、LRでは capital-gain が最も大きな係数を持っています。
同じデータであっても、モデルの構造が異なると重要とされる特徴量の見え方は変わります。数値の大小を直接比較するものではありませんが、モデルの性質が出力に反映されていることが確認できました。
Github
プロジェクト全体・Notebook・コードはこちら:
