LoginSignup
15
24

More than 3 years have passed since last update.

特徴量選択 Null ImportanceとPermutation Importance

Last updated at Posted at 2020-05-10

はじめに

様々な特徴量を用いて、学習させた際度の特徴量が重要なのか、どの特徴量が重要でないのかわからないと、さらなるスコアアップのための改善ができないですよね。

この記事では、「Null Importance」「Permutation Importance」を用いてノイズを含む特徴量を見つけ出す方法を紹介していこうと思います。

Null importance

Null Importanceの大まかな手順としてはこちら
1.RandomForestやXGBoost、LightGBMなどのfeature_importance関数を用いて特徴量重要度を出す

2、目的変数をシャッフルして、再び学習させfeature_importanceを出す
(あくまでランダムにシャッフルしているだけなので、信用性を増すためには複数回行う)

3、シャッフルして出した重要度(以下シャッフル重要度)とシャッフルなしで出した重要度(以下リアル重要度)を比較

では、コードで確認していきましょう

null.py
# 必要なモジュールをインポート
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier


# データの取得
# sklearnのデータセットload_breast_cancerについて軽く解説
# 乳房塊の微細針吸引物(FNA)のデジタル画像中に存在する細胞核の特徴を捉えたものを特徴量として置き。その患者が陰性か陽性かを判定するというもの

cancer = load_breast_cancer()
X = pd.DataFrame(cancer.data, columns=cancer.feature_names)
y = cancer.target


#特徴量とその重要度を含むDFを作成
def get_feature_importances(X, y, shuffle=False):
    # 必要ならば目的変数をシャッフル
    if shuffle:
        y = np.random.permutation(y)

    # モデルの学習
    clf = RandomForestClassifier(random_state=42)
    clf.fit(X, y)

    # 特徴量の重要度を含むデータフレームを作成
    imp_df = pd.DataFrame()
    imp_df["feature"] = X.columns
    imp_df["importance"] = clf.feature_importances_
    return imp_df.sort_values("importance", ascending=False)

# 実際の目的変数でモデルを学習し、特徴量の重要度を含むデータフレームを作成
actual_imp_df = get_feature_importances(X, y, shuffle=False)

# 目的変数をシャッフルした状態でモデルを学習し、特徴量の重要度を含むデータフレームを作成
#シャッフル重要度の母数を増やすためにN_RUNS回学習を行う
N_RUNS = 100
null_imp_df = pd.DataFrame()
for i in range(N_RUNS):
    imp_df = get_feature_importances(X, y, shuffle=True)
    imp_df["run"] = i + 1
    null_imp_df = pd.concat([null_imp_df, imp_df])

#重要度を可視化する関数
def display_distributions(actual_imp_df, null_imp_df, feature):
    # ある特徴量に対する重要度を取得
    actual_imp = actual_imp_df.query(f"feature == '{feature}'")["importance"].mean()
    null_imp = null_imp_df.query(f"feature == '{feature}'")["importance"]

    # 可視化
    fig, ax = plt.subplots(1, 1, figsize=(6, 4))
    a = ax.hist(null_imp, label="Null importances")
    ax.vlines(x=actual_imp, ymin=0, ymax=np.max(a[0]), color='r', linewidth=10, label='Real Target')
    ax.legend(loc="upper right")
    ax.set_title(f"Importance of {feature.upper()}", fontweight='bold')
    plt.xlabel(f"Null Importance Distribution for {feature.upper()}")
    plt.ylabel("Importance")
    plt.show()



# 実データにおいて特徴量の重要度が高かった上位5位を表示
for feature in actual_imp_df["feature"][:5]:
    display_distributions(actual_imp_df, null_imp_df, feature)

可視化した結果がこちら

image.png

image.png

image.png

image.png

image.png

特徴量にノイズがない場合には
・上のグラフのように、シャッフル重要度とリアル重要度が分離

逆にノイズがある場合には
・青色のシャッフル重要度のヒストグラムの中に赤いバーが重なる

というように一目でわかります

それでは閾値(リアル重要度より低いシャッフル重要度がN_RUNの何%か)を設定して閾値を超える特徴量のみ取り出していきましょう

null.py

# 閾値を設定
THRESHOLD = 80

# 閾値を超える特徴量を取得
imp_features = []
for feature in actual_imp_df["feature"]:
    actual_value = actual_imp_df.query(f"feature=='{feature}'")["importance"].values
    null_value = null_imp_df.query(f"feature=='{feature}'")["importance"].values
    percentage = (null_value < actual_value).sum() / null_value.size * 100
    if percentage >= THRESHOLD:
        imp_features.append(feature)

imp_features
# ['worst concave points', 'worst perimeter', 'worst radius', 'mean perimeter', 'worst concavity', 'mean radius', 'mean concavity', 'mean concave points', 'area error', 'worst compactness']

こうやって閾値を設定してやればノイズの影響が少ない重要度を抽出することができます。

Permutation Importance

参考記事

手順としてはこう
1.普通に学習、予測、をして評価指標に通しそのスコア(以下リアルスコア)を保存
2.特徴量を一つだけシャッフルして、学習、予測させ、評価指標に通し、そのスコア(以下シャッフルスコア)を保存
3.リアルスコアとシャッフルスコアの差や割合を取って、判断材料とする

image.png

image.png

4.1,2,3をすべての特徴量で繰り返し行い比較
image.png

悪化具合が大きいものほど、重要度が高い特徴量、少ないものはノイズを含む、または重要度が低い特徴量ということがわかります

permutation importanceを利用する際の注意点

多重共線性、つまり相間の高い特徴量を同時にモデルに投入している際にはどちらかの特徴量があまり評価されないという問題が起こります。

例えば、ある商品の値段をそれぞれ米ドルと日本円で表した二つの特徴量があったとします。この二つは、非常に似た振る舞いをするので、前者をランダム化したとしても後者の特徴量によって前者から学習すべき内容がほとんど学習できてしますため、精度があまり下がりません。精度が下がらないので、その得著量がターゲットに対して高い説明力を持っていたとしても、重要度が低いと計算されてしまいます。

多重共線性について

permutation importanceは原理さえりかいしてれば自分で好きなように作ることができますが、eli5というライブラリを使って少ないコード量で簡単に特徴量重要度を見ることができる方法を見つけたので、ここではその方法を紹介していこうと思います。(sklearnでもpermutation importance関数があるらしいので、そちらも調べてみるといいかもしれません)

sample.py
from sklearn.ensemble import RandomForestRegressor
from sklearn.datasets import load_boston
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_spli
from sklearn.datasets import load_boston
#ボストンの住宅価格予想データを使う
boston = load_boston()
X = pd.DataFrame(boston.data, columns=boston.feature_names)
y = boston.target


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=100)

model=RandomForestRegressor()
model.fit(X_train,y_train)

#おそらくデフォルトでははいっていないので、インストールしましょう
import eli5
from eli5.sklearn import PermutationImportance

perm = PermutationImportance(model, random_state=1).fit(X_test,y_test)
eli5.show_weights(perm, feature_names = X_test.columns.tolist())



と、こんな感じで、実行すると
image.png

このような表が返ってきます。上から順に重要な特徴量を示しています。(±の後ろの数字は誤差の範囲をあらわしています)
AGE、CHAS、ZN、INDUSはWeightがマイナスになる可能性があります。これはその特徴量をシャッフルして学習させて際に、逆にスコアが上昇する可能性がある、ということを示しているので、ノイズである可能性が高い、ということがわかります。

まとめ

どちらの手法も、特徴量選択において有用そうだけど、計算量や信憑性を考えると、permutation importanceの方が使いやすそうだと思いました(ライブラリもあるし)

まだ、feature_importances_関数についてどういうものなのか、よくわかっていないので、またそこら辺の知識を入れなおしてから、最適な特徴量選択法について考えていきたいと思います。

参考記事

Feature Selection with Null Importances
Null importances による特徴量選択
eli5 documentation
Permutation Importanceを使ってモデルがどの特徴量から学習したかを定量化する
Python: 特徴量の重要度を Permutation Importance で計測する

15
24
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
15
24