More than 1 year has passed since last update.

【1章】The Kaggle Bookをちゃんと読んでみる

Kaggle

Posted at 2024-01-18

1.1 データサイエンスコンペティションプラットフォームの台頭

1997年開始のKDDカップがデータサイエンス系のコンペティションとしての最初期

Netflixのコンペティション

1M$(約1.2億円)の賞金が特徴。既存のNetflixのアルゴリズムを改善できた場合という条件。
既存のアルゴリズムの精度を上回ったので賞金を支払ったが、DVDからストリーミングへの過渡期だった関係でプロダクトへの反映はされずに終わってしまった。このコンテストの際に、協調フィルタリングが一躍有名になった。

Netflix Never Used Its $1 Million Algorithm Due To Engineering Costs

他にも、GEのコンペティションでは、旅客機の到着時刻の予測を40%改善する結果となった理、Allstate Insuranceのコンペティション, 2011年では、保険数理モデルを改善できた例あり。

Kaggleの立ち上げ

KagglerはDataRobotなど傑出した企業を立ち上げたり、広く使われることとなったフレームワークの発表の場となった。また、エンジニアのスカウトの場所としても活用され始めた。

kerasは多様なモデルを迅速に使える状態にするために設計されており、コンペティションで結果を残すためには有力なツール。多くの人に今なお活用されている。

機械学習コンペティションでは、勝利するのは最初から最良のアイデアを持ち、それを実装して結果を提出し、忘れてしまうような人たちではまれです。良いモデルを開発するには、締め切りまでに初期のアイデアに何度も反復して作業する必要があります。モデルをさらに改善することは常に可能です。最終的なモデルは、問題に初めて取り組んだ時に想像した解決策とはほとんど共通点がないことが一般的です。というのも、事前の計画は実験的な現実との対峙をほとんど生き残ることができないからです。そのため、勝利は理論的なビジョンがどれほど優れているかではなく、ビジョンが現実とどれだけ接触しているかによるものです。あなたはより賢い人に負けるのではなく、より多くの実験を反復し、そのたびにモデルを少しずつ洗練させた人に負けるのです。Kaggleでチームを実験の回数でランク付けした場合、最終的なコンペティションのリーダーボードと非常に強い相関関係が見られると確信しています。

Kerasは、多様なモデルを迅速にプロトタイピングする方法として設計されました。アイデアから実験結果までの時間を可能な限り短縮することに重点を置いています。KerasのAPIとワークフローは、新しい実験を設定する際のオーバーヘッド（コードのオーバーヘッドと認知のオーバーヘッド）を基本的に減らします。したがって、Kerasを使用することで、より速く反復し、より多くのことを試すことができます。究極的には、これによりコンペティションで勝利したり、論文を発表したりすることができます。アイデアから結果に至るまでの遅延を最小限に抑えることは、良い研究を行うための鍵です。これはKerasの背後にある核心的な信念の一つです。

Why has Keras been so successful lately at Kaggle competitions?