LoginSignup
4
0

More than 3 years have passed since last update.

スプレッドシートEDA

Last updated at Posted at 2019-12-23

こんにちは

  • 初めて記事を書きます。キンチョー
  • この記事は小ネタ...というより極小ネタです。
  • IEEEというkaggleのコンペにチームで出た際、特徴量の情報管理としてそこそこ有用だと思われる手法がチーム内で用いられたのでそれを共有します。

IEEEコンペ

  • IEEEコンペの概要
    • クレジットカードの取引情報をもとに、その取引が詐欺かどうかをあてるコンペです。
  • IEEEコンペのデータについて
    • 個人情報だからなのか、カラム名の多くがmaskされていました。
    • 公式が少しずつカラムの情報を出したり、優秀な人が何のデータなのか当てdiscussionで公開していたりしていました。
    • →いちいち「このカラムが何者なのか」を探しに行くのが凄く面倒でした。
    • ここにどんなデータか載せようと思ったんですが、IEEEコンペの規約に同意してない人に見せるのは不味いですね。お手数ですがどんなデータなのか気になる方はkaggleのサイトでコンペにjoinして見てみてください→https://www.kaggle.com/c/ieee-fraud-detection/data

スプレッドシートEDA

  • 本手法について
    • 例やそのカラムの内容、あとどのように使ってきたかをまとめるというものです。実際にはこんな感じです。
    • (カラム名はjoin-competitionしなくても見ることができるデータです) BsPiD3ss2mFAN9A1574316390_1574316601.png
  • メリット

    • データについて自分が理解したことをまとめておけます。
    • チームでそれを共有できます。
    • maskされたデータについてはより強力でしょう。
  • EDAの一部?

    • EDAは文字通り取ると「Exploratory Data Analysis」。モデリングや特徴量エンジニアリングの前にデータについて深く理解するステップと考えていいと思います。
    • 特徴量の意味を理解すること、表にまとめることも立派なEDAだと思います。ですが、EDAというとどうもグラフばかりがフォーカスされているように感じたりしています。気のせいかもしれませんが...

その他

4
0
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
0