0

More than 5 years have passed since last update.

KaggleAdvent Calendar 2019

@yasagure(yasagure)

スプレッドシートEDA

Last updated at 2019-12-24Posted at 2019-12-23

こんにちは

初めて記事を書きます。キンチョー
この記事は小ネタ...というより極小ネタです。
IEEEというkaggleのコンペにチームで出た際、特徴量の情報管理としてそこそこ有用だと思われる手法がチーム内で用いられたのでそれを共有します。

IEEEコンペ

IEEEコンペの概要
- クレジットカードの取引情報をもとに、その取引が詐欺かどうかをあてるコンペです。
IEEEコンペのデータについて
- 個人情報だからなのか、カラム名の多くがmaskされていました。
- 公式が少しずつカラムの情報を出したり、優秀な人が何のデータなのか当てdiscussionで公開していたりしていました。
- →いちいち「このカラムが何者なのか」を探しに行くのが凄く面倒でした。
- ここにどんなデータか載せようと思ったんですが、IEEEコンペの規約に同意してない人に見せるのは不味いですね。お手数ですがどんなデータなのか気になる方はkaggleのサイトでコンペにjoinして見てみてください→https://www.kaggle.com/c/ieee-fraud-detection/data

スプレッドシートEDA

本手法について
- 例やそのカラムの内容、あとどのように使ってきたかをまとめるというものです。実際にはこんな感じです。
- （カラム名はjoin-competitionしなくても見ることができるデータです）
メリット
- データについて自分が理解したことをまとめておけます。
- チームでそれを共有できます。
- maskされたデータについてはより強力でしょう。
EDAの一部？
- EDAは文字通り取ると「Exploratory Data Analysis」。モデリングや特徴量エンジニアリングの前にデータについて深く理解するステップと考えていいと思います。
- 特徴量の意味を理解すること、表にまとめることも立派なEDAだと思います。ですが、EDAというとどうもグラフばかりがフォーカスされているように感じたりしています。気のせいかもしれませんが...

その他

IEEEでは毒kernel食べて散々な結果でした。残念。
- あほ過ぎた。
- 毒カーネルというのは、publicにはすごく良いデータを吐くが、privateにゴミデータを吐くというものです。皆さんも気を付けてください。
チーミング一般に関してこのスライドが優秀でした
- https://speakerdeck.com/j20232/kaggle-tokyo-meetup-li-number-01-way-to-border-collies-feat-jtc
お疲れさまでした。

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0