LoginSignup
330
309

More than 5 years have passed since last update.

0から始めるkaggle超初心者向け入門

Last updated at Posted at 2018-10-01

はじめに

kaggleって何?」という人が、

  • kaggleがなにかわかる(話が合わせられる)
  • kaggleコンペに参加してみる(ノリ気になる)

ためのお手軽説明です(`・ω・´)

Agenda

  1. kaggleとは?
  2. データ分析のトレンドの変化
  3. kaggleの仕組み
  4. なぜkaggleをやるの?
  5. やってみた(`・ω・´)

1. kaggleとは?

世界最大の機械学習・データ分析のコンペを主催するプラットフォーム

kaggle.png

つまり

データサイエンティストの世界最強を決める大会

kaggleの規模

  • ユーザ数: 50万以上
  • 国: 190カ国以上

らしい(`・ω・´)

2. データ分析トレンドの変化

理論(theory)

実践(practice)

  • 理解するのが大事(theory)

  • 実践・役立つのが大事(practice)

実践を重視している具体例

  • kaggle
    • コンペ
    • ノウハウの共有(コード・ディスカッション)
    • データの共有・公開
  • fast.ai
    • deep learning for coders(開発者の深層学習)
    • 理論より実践、SOA(state of art: 最先端)

AI社会による生活の向上

by Andrew Ng (AIや機械学習の有名な教授・教師)

I hope we can build an AI-powered society that gives everyone affordable healthcare, provides every child a personalized education, makes inexpensive self-driving cars available to all, and provides meaningful work for every man and woman. An AI-powered society that improves every person’s life.

andrew.jpeg

3. kaggleの仕組み

大まかな流れ

  1. 主催者(企業など)がコンペを主催する
    1. データを準備
    2. 問題を定義する
  2. 参加者は様々な手法を使ってベストなモデルを構築し、予測を提出する => スコアやランキングが分かる
  3. 主催者は、精度が高い予測に賞金を払う

4. kaggleをなんでやるの?

参加者のメリット

  • 様々なデータに触れられる(企業が実データを提供してくれる。レアい)
  • 他の参加者から学べる
  • 入賞すれば賞金 + 良い仕事をGET!
  • 楽しい
  • ギャンブル感覚

主催者側のメリット

  • 世界中のデータサイエンティストが問題解決の手法を試行錯誤してくれる
  • ブランディング・PR
  • データサイエンティストの採用

kaggle依存の副作用(kaggle is drug)

が、しかし

kaggle_addicted.png

コンペが始まると仕事しなくなる人たち

not_work.png

5. 早速kaggleをやってみた(`・ω・´)

1. コンペを選ぶ

competition_list.png

最近始まったばかりのコンペ(`・ω・´)

ga_competition.png

2. コンペの内容を読む

  1. 概要: 大まかに把握
  2. 評価指標: これが一番大事(`・ω・´)
  3. 賞金: できればほしいよね
  4. 期限: 時間厳守
  5. データ: だいたいCSVファイル(BigQueryも)

3. 他の参加者から学ぶ

  1. コード(kernel)
  2. ディスカッション(discussion)

kernels.png

いろんな人がコードを載せてくれてるので助かる

code.png

see: Simple Exploration+Baseline - GA Customer Revenue | Kaggle

4. 他の参加者の方法を真似てみる

コードをパクってローカルPCで実行するだけの簡単なお仕事(`・ω・´)

imitation.png

5. 助け合う <= New!

ちょうどライブラリのバージョンで上手く動作しなかったので、上手くいった方法を教え合う(`・ω・´)

comment.png

6. めんどくさいので人のコードをforkする

fork_original.png

forkしたコードを実行するだけ(`・ω・´)

fork.png

実行中

fork_running.png

7. 予測を提出する

submission.png

8. スコアとランクを確認

689位(全1,031チーム)

ちーん(`・ω・´)

result.png

結局言いたいのは

パクった後が勝負

まとめ

  • kaggleはデータサイエンティストのNo.1を決める大会
  • 理論より実践のトレンド
  • とりあえず人のコードをパクって頑張る
  • kaggleは沼(`・ω・´)

参考資料

おわり(`・ω・´)

ようこそkaggle沼へ

↓ スライド版はこちら

330
309
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
330
309