1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

kaggle初心者に送るAdvent Calendar 2024

Day 2

特徴量エンジニアリング 一日目

Last updated at Posted at 2024-12-02

これは

2日目の記事です。

titanic tutorialを終了すると、qiitaの記事でも多くの選択肢が提示されていますが公式のtutorialの流れに沿って進めると次におすすめするのは

です。このコースでの目標は2つ、特徴量を自分で作成することと回帰分析をできるようになることです。実際にチャレンジしてみましょう。

日本語化されたものも存在していますが情報についてもとと違う部分がありそうです。

英語版に従って解いていき、日本語版は参考に読むのが良いかと思います。

カテゴリ変数をdummy変数に置き換え(titanicと同様に)
新しく特徴量を作り
それらを回帰分析にかける

の流れとなりますが、実際のkernel(サンプルコード)を見ると新しく多くの関数が表示され圧倒されます。新しく出た関数についてコメントと参考コードを載せておきます。
tutorialが複数partに分かれているため、記事を連続したものを作ることで対応します。

最初のpartのtutorialでは、MI(相互情報量)について軽く触れています。高校数学の相関係数の応用と捉えることで納得できるでしょう。より正確な理解をするには、web上で相互情報量についての資料を探す必要がありますが、tutorialの簡単な説明を理解しておけば十分です。

困りそうな点
pandas.factorize()関数:
カテゴリデータを整数データ(離散データ)に置き換えます。前の記事のpandas.get_dummies()と似ていますが0と1の二値化ではありません。

   name    food
0   田中    ラーメン
1   佐藤    カレー
2   鈴木    ラーメン
3   山田    寿司
4   高橋    カレー

  name   food_code
0   田中    0
1   佐藤    1
2   鈴木    0
3   山田    2
4   高橋    1

に変換するイメージですね。

mutual_info_regressionについて
各特徴量がターゲット変数に対して持つ相互情報量(MI)を計算することになります。どの特徴が重要なのかを調べるためです。

from sklearn.feature_selection import mutual_info_regression

# X: 特徴量のデータ
# y: ターゲット変数
mi = mutual_info_regression(X, y)
1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?