こんにちは
- 初めて記事を書きます。キンチョー
- この記事は小ネタ...というより極小ネタです。
- IEEEというkaggleのコンペにチームで出た際、特徴量の情報管理としてそこそこ有用だと思われる手法がチーム内で用いられたのでそれを共有します。
IEEEコンペ
- IEEEコンペの概要
- クレジットカードの取引情報をもとに、その取引が詐欺かどうかをあてるコンペです。
- IEEEコンペのデータについて
- 個人情報だからなのか、カラム名の多くがmaskされていました。
- 公式が少しずつカラムの情報を出したり、優秀な人が何のデータなのか当てdiscussionで公開していたりしていました。
- →いちいち「このカラムが何者なのか」を探しに行くのが凄く面倒でした。
- ここにどんなデータか載せようと思ったんですが、IEEEコンペの規約に同意してない人に見せるのは不味いですね。お手数ですがどんなデータなのか気になる方はkaggleのサイトでコンペにjoinして見てみてください→https://www.kaggle.com/c/ieee-fraud-detection/data
スプレッドシートEDA
-
本手法について
-
メリット
- データについて自分が理解したことをまとめておけます。
- チームでそれを共有できます。
- maskされたデータについてはより強力でしょう。
-
EDAの一部?
- EDAは文字通り取ると「Exploratory Data Analysis」。モデリングや特徴量エンジニアリングの前にデータについて深く理解するステップと考えていいと思います。
- 特徴量の意味を理解すること、表にまとめることも立派なEDAだと思います。ですが、EDAというとどうもグラフばかりがフォーカスされているように感じたりしています。気のせいかもしれませんが...
その他
-
IEEEでは毒kernel食べて散々な結果でした。残念。
- あほ過ぎた。
- 毒カーネルというのは、publicにはすごく良いデータを吐くが、privateにゴミデータを吐くというものです。皆さんも気を付けてください。
-
チーミング一般に関してこのスライドが優秀でした
-
お疲れさまでした。