0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

kaggle初心者に送るAdvent Calendar 2024

Day 6

特徴量エンジニアリング 最終日

Last updated at Posted at 2024-12-06

特徴量エンジニアリングの最終日です。

今日は

の確認を行います。
特徴量エンジニアリングにおいて、2日目にカテゴリー変数をdummy化したりしましたが、それらは目的変数がない場合でした。今回は目的となる変数がある場合にカテゴリ変数をあつかうtarget encodingについてです。
基本的に原文に従うと引っ掛かりどころは少ない印象です。途中に出てくるCode

autos.groupby("make")["price"].transform("mean")

は、groupby→transformとつながっています。はじめてみると少し戸惑いますが、groupbyの使用で一般的な形でなので、そのまま覚えてしまって問題ありません。ここではmake-priceの平均を出し、"make_encoded"ラベルの列をつくっています。(平均エンコーディング)これにより、カテゴリ変数だったものを上手にデータとして使えます。
smoothingについては英語を機械翻訳などでしっかりと確認すると特につまづきはないかと思います。

そのあと、MEstimateEncoderがでてきますが、これは上で学んだことを理解したうえで使うscikit-learnの公式実装です。

によると、Target Encoderをよりシンプルにしたもの(ハイパーパラメータがすくない)です
。 mの値が大きいと、smoothingが急激に変化します。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?