More than 3 years have passed since last update.

Signateの第10回_Beginner限定コンペの振り返り

Last updated at 2021-06-04Posted at 2021-06-04

はじめに

データ分析の勉強のために参戦したSIGNATEの第10回_Beginner限定コンペが先日終了したので、振り返るために初めて記事を書くことにしました。文章は拙いと思われますが、よろしければ読んでみてください。

Google Colaboratory

![dda11fc13f6edf995b44ce6ab8b3dfc4.png](https://qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/1006980/81c43b83-e1dc-75aa-0a09-7358ea8ddca2.png)

最終順位は2位(178人中)。使用モデルはLGBM(fold-out)。

EDA
説明変数はすべて量的変数とされていたためカテゴリ変数になりうるものはカテゴリ変数化。

shape、info、describe、headで全体の把握。

ヒストグラム、散布図、箱ひげ図、バイオリンプロットで全体の分布の把握。

カテゴリ変数は全体、クラス毎に相対度数確認。

最後にtargetとの相関関係を確認。
特徴量作成
相関係数が極端に低い変数の削除。

カテゴリ変数を確認時、クラスごとに最頻の組み合わせがあったため「{}_{}_{}」という形でカテゴリ変数作成。

学習データ、テストデータを一度合わせて量的変数、カテゴリ変数でクラスターを作成。

カテゴリ変数をtarget encodingで数値化(https://towardsdatascience.com/target-encoding-for-multi-class-classification-c9a7bcb1a53(multilabel化)の方法と通常の方法)。
学習と予測
ロジスティック回帰、K近傍法、サポートベクターマシン、決定木、ランダムフォレスト、XGBoost、LightGBMでモデル構築(fold-out、crossvalidation)。

上記のモデルのアンサンブルの実施(バギング、スタッキング)

最後まで読んでいただきありがとうございました。次回の投稿時にはもう少し読みやすいようにしたいです。思考の文章化もできればなと思っています