Adult Incomeで特徴量エンジニアリングを試してみた — PCA・LRの構造解析を基に検証

Last updated at 2026-03-06Posted at 2026-03-06

はじめに

本記事では、その分析結果を基に特徴量エンジニアリングを行い、交差検証により効果を確認します。

結論から言うと、今回試した範囲ではモデル性能の大きな改善は確認できませんでした。

前記事では、PCA と Logistic Regression を用いてデータ構造を確認しました。本記事では、その分析結果を基に特徴量エンジニアリングを試し、交差検証により効果を確認します。

前記事では、PCA と Logistic Regression を用いてデータ構造を確認しました。

PCAでは、分散が複数主成分へ分配されており、本データが多因子的な分散構造を持つことが確認されました。主成分負荷量からは、education-num、hours-per-week、capital-gain、age など複数特徴量が統合的に寄与している様子が観察されました。

一方、Logistic Regression では capital-gain が比較的強い寄与を持つものの、誤分類は特定単変数に集中せず散在していました。

これらの観察を踏まえ、本記事では以下の観点から特徴量エンジニアリングを試します。

各特徴量の有効性は、LightGBM を用いた交差検証により確認します。

分布歪み補正（単調変換）

ゼロ集中構造（しきい値特徴量）

限定的な交互作用

今回試した範囲では、CVスコアの有意な改善は確認できませんでした。

今回いくつかの特徴量エンジニアリングを試しましたが、CVスコアの有意な改善は確認できませんでした。

Adult Income データはすでに特徴量が比較的整理されており、単純な変換や限定的な交互作用では性能向上につながりにくい可能性があります。

また、この結果は本シリーズで行った PCA および Logistic Regression による構造観察とも整合的でした。分散や寄与は複数特徴量に分散しており、単一変数や単純な変換による改善余地は限定的だったと考えられます。

最後に、本シリーズを通して Adult Income データを PCA と Logistic Regression の両方から観察したことには一定の意味があったと感じています。

LightGBM のような非線形モデルは高い予測性能を示しますが、データ構造そのものは見えにくくなりがちです。今回、PCA と Logistic Regression を併せて確認することで、特徴量の分散構造や寄与の傾向を俯瞰的に把握することができました。

結果として特徴量エンジニアリングによる大きな改善は見られませんでしたが、モデル性能の背景にあるデータ構造を確認できた点は、本シリーズの一つの収穫だったと考えています。

プロジェクト全体・Notebook・コードはこちら：