はじめに
Kaggleについてまとめてみました。
Kaggleとは
Kaggleは、データサイエンティストや機械学習エンジニアのためのオンラインコミュニティである。Kaggleでは、常に複数のコンペが開催され、世界中の多くの参加者が機械学習モデルの性能を競い合っている。プログラミング言語の「Python」や「R」が実行出来る「Notebooks」という環境も提供されている。ソースコードの公開や議論も活発で、初学者から上級者までの全ての人が、機械学習を学ぶのに適したプラットフォームとなっている。
Kaggleのコンペの概要
- 企業などがデータと賞金を提供し、Kaggleにコンペの開催を依頼。Kaggleはコンペを開催する。
- 参加者は、データを分析し予測結果をsubmit(提出)する。予測結果は自動的に採点されスコアが表示される。
- コンペの期間中(期間は2~3ヵ月のコンペが多い)、参加者は何度も予測結果をsubmitしてスコアを確認出来る。
- コンペ終了後、スコアに基づく順位がつき、上位者には賞金とメダルが付与される。
- メダルを一定数獲得すると、上位の称号を獲得出来る。
コンペの参加者は自分でデータを用意する必要がなく、上位になると賞金がもらえ、下位であろうと罰則は一切ない。自分のsubmitが採点されて順位が表示されるのはネットゲームのように楽しく、少しでも順位を上げたいというモチベーションをもって機械学習を楽しく学ぶことが出来る。
アカウント作成時は「Novice(初学者)」という称号だが、特定のコンペでメダルを獲得し一定の枚数集めると、Expert、Master、Grandmasterという上位の称号を獲得出来る。この称号も、コンペで上位を目指すモチベーションとなる。
メダルと称号の獲得条件
Kaggleのメダルの対象となるコンペで、上位に入るとメダルを獲得出来る。メダルを獲得出来る順位はコンペの参加チーム数に応じて変動する。
金メダルの条件にある「上位10チーム+0.2%」の0.2%というのは、500チームごとに金メダルが与えられるチーム数が1増えるという意味である。例えば、1000チーム参加のコンペでは上位12チーム、2000チーム参加のコンペでは上位14チームに金メダルが付与される。
一定数のメダルを揃えると称号を獲得出来る。
Contributorの条件は次の通りである。
・プロフィールへのbio(自己紹介)、居住地域、職業、所属組織の追加
・アカウントのSMS認証
・スクリプトの実行
・コンペでのsubmit
・NotebooksまたはDiscussionでのコメントとupvote(いいね)の実施
Contributorになるためには、メダル獲得が必要ない。条件を満たすことで、すぐにでも称号獲得が可能である。
そのため、最初に獲得を目指す称号は、Expertとなる。Expertの条件は、銅メダル以上のメダルを2枚獲得となっている。
その次の称号は、Masterである。金メダルの獲得が条件に含まれる難易度の高い称号で、獲得者は世界でも1300人程度となっている。
Kaggleの最高位の称号は、Grandmasterである。5枚の金メダルの獲得に加え、うち1枚は「ソロ」(個人)という、獲得がとても難しい称号となっている。この称号の獲得者は、世界でも170人程度である。
ここでは、Competitionsの称号を説明したが、この他にもNotebooks、Discussion、Datasetsの称号がある。それぞれの概要は次の通りである。
・Notebooksの称号は、公開したNotebookへのupvote数に基づいて得られるメダルを、一定数集めることで獲得出来る。
・Discussionの称号は、投稿したコメントへのupvote数に基づいて得られるメダルを、一定数集めることで獲得出来る。
・Datasetsの称号は、公開したDatasetへのupvote数に基づいて得られるメダルを、一定数集めることで獲得出来る。
Kaggle以外の機械学習コンペ
Kaggle以外にも機械学習コンペを開催するプラットフォームはいくつか存在する。
例えば「SIGNATE」は日本最大級のデータサイエンティストらのオンラインコミュニティである。国内の企業・官公庁・研究機関がコンペを開催している。サイト内の記述が日本語なので、Kaggleに比べて初学者の方も取り組みやすい側面がある。
オンラインではなく、土日などに参加者が実際に会場などに集まって開催する形式のコンペも存在する。最近は多くの企業がこういった「オフラインコンペ」を開催しており、特に採用目的で学生が対象のイベントも目立っている。
参加する機械学習コンペの選択肢として幅広く認知しておくと良い。
おわりに
ここまで読んでいただきありがとうございます!
参考文献
・実践Data Scienceシリーズ PythonではじめるKaggleスタートブック 単行本 – ビッグブック, 2020/3/19
石原 祥太郎 (著), 村田 秀樹 (著)
p.13-15
・Kaggle Progression System
https://www.kaggle.com/progression(Accessed: 30 November 2019).
・https://www.currypurin.com/entry/2018/02/21/011316(Accessed: 30 November 2019).
・SIGNATE
https://signate.jp/ (Accessed: 30 November 2019).