More than 1 year has passed since last update.

SIGNATE-STUDENT-CUP2023-Review

Last updated at 2023-12-15Posted at 2023-11-03

問題概要

SIGNATE主催の学生限定コンペ
内容はテーブルデータから中古車価格を予測するというもの。

訓練：27532
テスト：27537
評価指標：MAPE

順位は奮わず101/379人であった。
しかし、努力賞として以下のものを頂いた。

トラックが平均して価格が高く黄色のトラックが最も高い組み合わせ

新品の後輪駆動が価格が高い傾向にある

しかし、データ数を確認すると極端に数が少なく平均価格が引っ張られたに過ぎなかった。

1997年10月に初めてハイブリッドカーをトヨタが発表したとのこと。
しかし、ハイブリッドカーの製造年の最小値を確認すると1975年となっていた。
これはデータ拡張をすでに行ってデータを作成したことに起因するのだと考えるが、具体的にどう対処すればよいのかはわからなかった。

TabNetと最近傍法はあまり効かず、モデルに採用したのはLightGBMのみであった。

残差接続をイメージしてスタッキングを行った。
以下に処理の流れを示す。

欠損値と外れ値の処理方法を工夫した。

また、特徴量エンジニアリングとして、カテゴリ変数については可能な限り順序尺度に変換した。

学生部門1位

社会人部門2位

社会人部門1位