この記事は、Kaggle Advent Calendar 2019のアドベントカレンダー3日目の記事です。
「Kaggle興味あるけど、ガチっぽくて怖い…」と思われている方向けの参考になればと思います!
※以下情報は2019/12現在のものです
Kaggleと出会うまで
Kaggleと出会う前の経歴は、ざっと以下です。
- マーケター ⇒ コンサルタント
- 文系出身(美術史専攻)
- プログラミング未経験(HTML少し触ったくらい)
- 黒い画面に畏敬の念しかない…
こんな状態でしたが、直近1年でPython&機械学習を勉強し、なんとかKaggleのことも分かってきました。なので、1年前の自分に向けて、これ知っとくと良いよ、という事を書いていきます。
対象読者
誰に?
- データ分析/機械学習スキルを伸ばしたい
- Kaggle楽しそうだけど、プログラミング未経験
- 主にマーケターや企画職
何を?
- Kaggleは試しておいて損はないぞ!
※Kaggleツヨツヨな方向けの内容ではありません
※個人的な主観がメインです(いわゆるポエム)
「Kaggle」とは何か?
Kaggleとは
ひと言でいうと「機械学習」を用いたデータ分析の天下一武道会です
分析するデータ
- 企業がデータとテーマを提供し、コンペを開催
- テーマは、医療・マーケティング・金融など多岐にわたる
コンペ開催期間
- 1~3か月間ほど
- 比較的長い
順位
- 機械学習モデルを作成し、そのモデルの予測結果で順位づけ
賞金
- 上位者には賞金が出るコンペも
- 2019/12現在 開催中のDSBコンペは1位 $100,000(約1000万円!)
参加費
- 無料!
登録ユーザー
- 約12万人(2019/12現在) ※参照元
ランクについて
Kaggleには、強さによって5つのランクが存在します。
(厳密には、コンペでの強さ以外にもKernels,Discussion,DatasetsといったKaggleコミュニティへの貢献によっても、ランクがもらえます)
- Grandmaster ※最強…!
- Master
- Expert
- Contributor
- Novice ※まずはここから
Kaggleに取り組む人々(通称:Kaggler)は、このランクを上げるために日々大量の時間を投入してコンペを頑張っている、といっても過言ではありません(たぶん)
ランクごとの人数
各ランクのイメージ
ランクアップ条件
ランクアップ条件はこちら。(Competitionsにおいて)
Expertから、いきなりメダルを要求されます。。。初心者の方は、まずExpertを目標にしたいところです。
メダル獲得条件
メダルはGold、Silver、Bronzeの3種類。
メダル獲得条件はこちら。(Competitionsにおいて)
参加人数によって厳密な条件は異なりますが、以下が目安です。
- Gold:Top10
- Silver:Top 5%
- Bronze:Top 10%(※)
※いきなりTop10%なんて!と思われるかもしれませんが、一説によると、コンペ開催中の情報(Notebooks,Discussionなど)を丁寧に拾っていくだけでも、Bronze獲得は夢ではないらしい・・・(生存者バイアスの可能性あり)
例えばこんなコンペ
タイタニック号沈没事故の生存者予測
- Titanic: Machine Learning from Disaster
- Kaggleにおける「Hello World」的なコンペ
- 練習用コンペなので、特に期間の終わりは無い
- 乗船者の性別、年齢、乗り込んだ港、客室ランクなどのデータをもとに、その乗客が生存するか否かを予測
ペットショップでの犬・猫が引き取られる速さの予測
- PetFinder.my Adoption Prediction
- 2018/12~2019/3まで開催
- 1位賞金は10,000ドル
- 各ペットのプロフィール、説明文言、写真などのデータをもとに、そのペットが養子として引き取られる速さを予測
- テーブルデータ、画像、テキストといった複数ソースをもとに予測する実践的なコンペ
Kaggleをやるメリット
Kaggleをやるメリットを、3つ挙げてみました。
①自分のデータサイエンススキルがわかる(証明にもなる)
データサイエンススキルは、実践を通さないと実力が測りづらいものです。
ただ、Kaggleでメダルやランクを獲得していると、おおよそのデータサイエンススキルが証明できます。最近はKaggle採用をしている企業も徐々に増えており、ステップアップ時の証拠にもなります。
②世界のデータサイエンティストのノウハウが学べる(無料で!)
自分も実際にコンペに参加してわかったのですが、Kaggleではただ相手と競うだけでなく、ノウハウや情報をシェアし合うすばらしい文化があります。
特に、「Notebooks」では、データサイエンスのノウハウ&流行が、コードと一緒に分かりやすく説明されており、初心者にもおすすめです。
③機械学習が何をやっているのか、肌感レベルで理解できる
昨今、身の回りのアプリやマーケティングツールに、どんどん機械学習が組み込まれています。
Kaggleをやっていれば、機械学習のモデリング過程をひととおりマスターできるので、機械学習で何ができて何ができないのか、肌感覚で理解できます。
Kaggleはここから始めるべし
いろいろと異論はありそうですが、個人的なポイントは以下3つ。
①機械学習/Python 知識ゼロなら、「松尾研」テキスト1択!
機械学習/AI関連で有名な東京大学の松尾研究室。
その松尾研究室が行っている「データサイエンティスト育成講座」のテキストを、無料でダウンロードできます。これはすごいことです、事件です!
文章とPythonコードで機械学習の初級者卒業レベルを丁寧に解説してくれていますので、Kaggleの内容が理解しにくい方は、こちらを完了させると良いかと思います。
▼「松尾研」テキスト ダウンロード先はこちら
https://weblab.t.u-tokyo.ac.jp/gci_contents/
②「Notebooks」でvote数の高いものを写経し、コツをつかむ!
さきほども述べましたが、各コンペ内の「Notebooks」は宝の宝庫です。
取り組みやすそうなコンペを選んだら、「Notebooks」のVotes数が高いNotebookを写経することがオススメです。Vote数が高いNotebookは、説明がていねいでわかりやすいものが厳選されているので、写経することでデータ取得~モデル結果提出までの流れを追体験でき、機械学習のコツが会得できます。
③1人だと情報もなく詰まるので、誰かとつながることがオススメ!
Kaggleは基本個人戦です。ただ、コンペ期間は1~3か月と長く、モチベーションが下がったり煮詰まったりすることもあります。
そんなときに、Kaggleをやっている仲間がいると、役立つ情報の共有(プライベートシェアリングはNG)や励まし合いができ、よりKaggleを楽しむことができます。
個人的には、以下3つがオススメです。
- Kaggle関連のセミナーに行ってみる(connpassなど)
- TwitterでKaggle勢をフォローする
- Kaggleコミュニティにゆるく参加してみる
さいごに
Kaggleは、機械学習/データ分析の初心者~上級者まで楽しめる、とても優れたプラットフォームです。
Kaggleをやっていると、世界中のTOPデータサイエンティストとしのぎを削ったり、情報共有したり、教えてもらったり、といったことが当たり前のように出来てしまいます。ただ、よくよく考えると、これって凄いことだよなあと、この記事を書きながら、あらためて実感しました。
これから先も、Kaggleが良いプラットフォームであり続けるために、微力ながら貢献していきたいです!(まずは、メダルほしい…)