Adult Incomeで係数と分布を確認してみた ― LR編

Last updated at 2026-02-28Posted at 2026-02-27

はじめに

本記事では、Adult Income データに対してロジスティック回帰（LR）を適用し、線形モデルがどの特徴量に重みを置いているのかを確認します。
具体的には、標準化した説明変数を用いて学習した際の係数（coef）を確認し、数値特徴量（NUM_COLS）の分布（赤：>50K、青：<=50K）とあわせて観察します。

前処理として、数値特徴量の欠損値処理およびカテゴリ変数の one-hot エンコーディングを行っています。

学習後の係数（coef）

No	feature	Type	coef	abs_coef
1	capital-gain	NUM	2.369197	2.369197
2	marital-status_Married-civ-spouse	CAT	0.737401	0.737401
3	education_Preschool	CAT	-0.542018	0.542018
4	marital-status_Never-married	CAT	-0.509156	0.509156
5	education-num	NUM	0.391563	0.391563
6	hours-per-week	NUM	0.376800	0.376800
7	age	NUM	0.312555	0.312555
8	relationship_Own-child	CAT	-0.306367	0.306367
9	capital-loss	NUM	0.258429	0.258429
10	relationship_Wife	CAT	0.252896	0.252896
11	occupation_Priv-house-serv	CAT	-0.252376	0.252376
12	occupation_Other-service	CAT	-0.248173	0.248173
13	occupation_Exec-managerial	CAT	0.246674	0.246674
14	marital-status_Divorced	CAT	-0.225327	0.225327
15	sex_Male	CAT	0.196429	0.196429
16	sex_Female	CAT	-0.196429	0.196429
17	occupation_Farming-fishing	CAT	-0.186420	0.186420
18	relationship_Not-in-family	CAT	0.151212	0.151212
19	marital-status_Separated	CAT	-0.147457	0.147457
20	education_Bachelors	CAT	0.146747	0.146747

上位の係数を見ると、capital-gain が突出して大きな値をとっていることが分かります。次いで、education-num、hours-per-week、age といった数値特徴量が続いており、線形モデルがこれらの量的な情報に強く依存していることが確認できます。

一方で、marital-status や relationship、occupation などのカテゴリ特徴量も上位に現れており、属性情報も一定の影響を持っていることが分かります。

全体として、数値特徴量が主軸となりつつ、いくつかのカテゴリ特徴量が補助的に作用している構造が見て取れます。

数値特徴量（NUM_COLS）の分布（赤：>50K、青：<=50K）

capital-gain では赤（>50K）が高値側に比較的はっきり現れています。一方で、education-num や hours-per-week、age では赤がやや高めに寄る傾向はあるものの、青（<=50K）との重なりも大きいです。

図を見ると、単一の特徴量だけで明確に分かれるというよりは、いくつかの数値特徴量に見られる偏りが重なっているように見えます。

係数の大きさとあわせてみると、capital-gain が突出している点は分布の様子とも整合しています。education-num や hours-per-week、age も上位に位置しており、散布図で見られた傾向と対応しています。

係数上位の特徴量は、分布上でもある程度の偏りを持っており、線形モデルがこうした特徴量を中心に判定している様子がうかがえます。

感想

係数と分布を並べてみることで、線形モデルがどの方向を重視しているのかを少し具体的にイメージできました。
単に数値を眺めるだけでなく、分布とあわせて見ることでモデルの挙動がより直感的に捉えられるように感じます。

Github

プロジェクト全体・Notebook・コードはこちら：

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up