はじめに
「kaggleって何?」という人が、
- kaggleがなにかわかる(話が合わせられる)
- kaggleコンペに参加してみる(ノリ気になる)
ためのお手軽説明です(`・ω・´)
Agenda
- kaggleとは?
- データ分析のトレンドの変化
- kaggleの仕組み
- なぜkaggleをやるの?
- やってみた(`・ω・´)
1. kaggleとは?
世界最大の機械学習・データ分析のコンペを主催するプラットフォーム
つまり
データサイエンティストの世界最強を決める大会
kaggleの規模
- ユーザ数: 50万以上
- 国: 190カ国以上
らしい(`・ω・´)
2. データ分析トレンドの変化
理論(theory)
↓
実践(practice)
昔
- 理解するのが大事(theory)
今
- 実践・役立つのが大事(practice)
実践を重視している具体例
- kaggle
- コンペ
- ノウハウの共有(コード・ディスカッション)
- データの共有・公開
- fast.ai
- deep learning for coders(開発者の深層学習)
- 理論より実践、SOA(state of art: 最先端)
AI社会による生活の向上
by Andrew Ng (AIや機械学習の有名な教授・教師)
I hope we can build an AI-powered society that gives everyone affordable healthcare, provides every child a personalized education, makes inexpensive self-driving cars available to all, and provides meaningful work for every man and woman. An AI-powered society that improves every person’s life.
3. kaggleの仕組み
大まかな流れ
- 主催者(企業など)がコンペを主催する
- データを準備
- 問題を定義する
- 参加者は様々な手法を使ってベストなモデルを構築し、予測を提出する => スコアやランキングが分かる
- 主催者は、精度が高い予測に賞金を払う
4. kaggleをなんでやるの?
参加者のメリット
- 様々なデータに触れられる(企業が実データを提供してくれる。レアい)
- 他の参加者から学べる
- 入賞すれば賞金 + 良い仕事をGET!
- 楽しい
ギャンブル感覚
主催者側のメリット
- 世界中のデータサイエンティストが問題解決の手法を試行錯誤してくれる
- ブランディング・PR
- データサイエンティストの採用
kaggle依存の副作用(kaggle is drug)
が、しかし

コンペが始まると仕事しなくなる人たち

5. 早速kaggleをやってみた(`・ω・´)
1. コンペを選ぶ

最近始まったばかりのコンペ(`・ω・´)

2. コンペの内容を読む
- 概要: 大まかに把握
- 評価指標: これが一番大事(`・ω・´)
- 賞金: できればほしいよね
- 期限: 時間厳守
- データ: だいたいCSVファイル(BigQueryも)
3. 他の参加者から学ぶ
- コード(kernel)
- ディスカッション(discussion)

いろんな人がコードを載せてくれてるので助かる

see: Simple Exploration+Baseline - GA Customer Revenue | Kaggle
4. 他の参加者の方法を真似てみる
コードをパクってローカルPCで実行するだけの簡単なお仕事(`・ω・´)

5. 助け合う <= New!
ちょうどライブラリのバージョンで上手く動作しなかったので、上手くいった方法を教え合う(`・ω・´)

6. めんどくさいので人のコードをforkする

forkしたコードを実行するだけ(`・ω・´)

実行中

7. 予測を提出する

8. スコアとランクを確認
689位(全1,031チーム)
ちーん(`・ω・´)

結局言いたいのは
パクった後が勝負
まとめ
- kaggleはデータサイエンティストのNo.1を決める大会
- 理論より実践のトレンド
- とりあえず人のコードをパクって頑張る
- kaggleは沼(`・ω・´)
参考資料
- Kaggle - Wikipedia
- What is Kaggle, Why I Participate, What is the Impact?
- fast.ai · Making neural nets uncool again
- deeplearning.ai: Announcing new Deep Learning courses on Coursera
おわり(`・ω・´)
ようこそkaggle沼へ
↓ スライド版はこちら