1.1 データサイエンスコンペティションプラットフォームの台頭
1997年開始のKDDカップがデータサイエンス系のコンペティションとしての最初期
Netflixのコンペティション
1M$(約1.2億円)の賞金が特徴。既存のNetflixのアルゴリズムを改善できた場合という条件。
既存のアルゴリズムの精度を上回ったので賞金を支払ったが、DVDからストリーミングへの過渡期だった関係でプロダクトへの反映はされずに終わってしまった。このコンテストの際に、協調フィルタリングが一躍有名になった。
他にも、GEのコンペティションでは、旅客機の到着時刻の予測を40%改善する結果となった理、Allstate Insuranceのコンペティション, 2011年では、保険数理モデルを改善できた例あり。
Kaggleの立ち上げ
KagglerはDataRobotなど傑出した企業を立ち上げたり、広く使われることとなったフレームワークの発表の場となった。また、エンジニアのスカウトの場所としても活用され始めた。
kerasは多様なモデルを迅速に使える状態にするために設計されており、コンペティションで結果を残すためには有力なツール。多くの人に今なお活用されている。
機械学習コンペティションでは、勝利するのは最初から最良のアイデアを持ち、それを実装して結果を提出し、忘れてしまうような人たちではまれです。良いモデルを開発するには、締め切りまでに初期のアイデアに何度も反復して作業する必要があります。モデルをさらに改善することは常に可能です。最終的なモデルは、問題に初めて取り組んだ時に想像した解決策とはほとんど共通点がないことが一般的です。というのも、事前の計画は実験的な現実との対峙をほとんど生き残ることができないからです。そのため、勝利は理論的なビジョンがどれほど優れているかではなく、ビジョンが現実とどれだけ接触しているかによるものです。あなたはより賢い人に負けるのではなく、より多くの実験を反復し、そのたびにモデルを少しずつ洗練させた人に負けるのです。Kaggleでチームを実験の回数でランク付けした場合、最終的なコンペティションのリーダーボードと非常に強い相関関係が見られると確信しています。
Kerasは、多様なモデルを迅速にプロトタイピングする方法として設計されました。アイデアから実験結果までの時間を可能な限り短縮することに重点を置いています。KerasのAPIとワークフローは、新しい実験を設定する際のオーバーヘッド(コードのオーバーヘッドと認知のオーバーヘッド)を基本的に減らします。したがって、Kerasを使用することで、より速く反復し、より多くのことを試すことができます。究極的には、これによりコンペティションで勝利したり、論文を発表したりすることができます。アイデアから結果に至るまでの遅延を最小限に抑えることは、良い研究を行うための鍵です。これはKerasの背後にある核心的な信念の一つです。
Why has Keras been so successful lately at Kaggle competitions?
Kaggleというプラットフォームで学ぶメリット
- データサイエンスの素養を活かして会社を立ち上げる
- 機械学習のソフトウェアをリリースする
- 夢だった仕事に就く
などなど。
他のプラットフォーム
Kaggleのコンペティションの種類
通常の賞金つきコンペ(Featured)以外にも初心者向けのコンペや採用目的のもの、クローズドなコンペなどが存在する
競争力学について
コンペティションプラットフォームにおこる競争力学やCommon Task FrameworkについてDavid Donohoの50 years of data scienceに包括的な説明が記載してある
悪いコンペティションについて
競争力学が働かないケースは、①データの漏れ、②リーダーボードでのプロービング、③過剰適合や④プライベート共有などが挙げられる。
敵対的テスト
- リーダーボードをどれくらい当てにできるのかを知るために行うテスト。Bojan Tunguzのノートブックに具体的な例が載っている。
columns
ノーフリーランチ定理とは、全ての問題で他のアルゴリズムを打ち負かすアルゴリズムが存在しないことを示した定理。
称号やランキング
rank |
---|
コンペに限ると、2回銅メダルが取れればExpertに昇格。金メダル1個と銀メダルが2個取れれば、Masterに昇格。5回金メダルが取れれば、Grandmasterに昇格。
金メダルはトップ10位(+0.2%)、銀メダルはトップ5%、銅メダルはトップ10%
コンペごとに参加人数が分かれば、メダル条件を正確に把握できる
コンペ以外でも、データセットを作成したりノートブックを作成したり良いディスカッションができたりすると、投票数に応じてメダルをもらえることがある。細かく読むと、古い投稿に対する投稿やNoviceからの投票は無視されるので注意が必要。情報の鮮度も関係してくるらしい。
まとめ
- コンペの成り立ちや競争力学についてもっと深掘りしたい(
50YearsDataScience.pdf
は読んでみる必要あり) - メダル獲得条件や称号の昇格条件について知ることでモチベーションが上がった(まずは銅メダル2つ!10%以内)
- コミュニティに有益な情報をもたらす行為も評価されるらしい。他人に説明しやすい記述の仕方やデータの可視化手法について学んでいくことも大切