不甲斐なくもまだSVM, ニューラルネットワークについて書き終えていないのですが…とりあえず一旦そのことは忘れて、ついに僕もKaggleコンペに参加し始めたので、記録がてらその過程を書いていこうと思います。
#0. Kaggleとは
そのKaggleってなんなんだ!という方も多いと思います。まずはそのような方に向けて、Kaggleというのはどういうものなのか、何ができるのか、何のためにやるのかについて僕の言葉ではなくネットに載っていた言葉で説明します。(僕も良くは分かっていない)
Kaggleですが、本サイトへ行くと一番上に書かれていますが「The Home of Data Science & Machine Learning」(データサイエンスと機械学習の家)と題されている通り、世界中の機械学習・データサイエンスに携わっている約40万人の方が集まるコミニティーです。
Kaggleでは、企業や政府などの組織とデータ分析のプロであるデータサイエンティスト/機械学習エンジニアを繋げるプラットフォームとなっています。単純なマッチングではなく、Kaggleの最大の目玉とも言える「Competetion(コンペ)」がKaggleの特徴の一つです。
Competition(コンペ)は、企業や政府がコンペ形式(競争形式)で課題を提示し、賞金と引き換えに最も制度の高い分析モデルを買い取るという、最近でいう一種のクラウドファンディングに近いような仕組みとなります。
-Kaggleとは?機械学習初心者が知っておくべき3つの使い方
この説明によると、どうやらKaggleというのは**「データサイエンティストのためのオープンコミュニティー(コンペ付き)」**だと言うことができそうです。そしてKaggleの最大の魅力はやはり複数並列開催されているコンペティションでしょうか。なんといったってそのコンペ優秀者には小さい額ではない賞金が出るのです。僕が今参加しているものだと$70,000。wow!
このKaggleはワールドワイドであり、コンペ主催者は全世界の企業や政府となります。しかし中には僕たちにも身近な企業が主催しているものもあったりするので、そのような場合は腕がなってしまいますね。(まだやってないのですが)
例えば以下の図にあるようなMercariなど。
それではKaggleの基本情報についてはここまでにして、以下ではKaggleコンペについてについて書いておきます。
#1. コンペ参加ステータス
コンペ参加における基本事項を箇条書きで記します。
###参加コンペ
Home Credit Default Risk
###コンペ概要
Home Credit strives to broaden financial inclusion for the unbanked population by providing a positive and safe borrowing experience. In order to make sure this underserved population has a positive loan experience, Home Credit makes use of a variety of alternative data--including telco and transactional information--to predict their clients' repayment abilities.
要約:既存の様々なデータから顧客の借金返済能力を予測したい
###チーム
sakigakeman
oginoma
###ルール
・一つのコンペで上位20%以内に入らなければ次のコンペに進むことはできない
・20%という数値に対し変更は金輪際ない
・二ヶ月以内に入らなかった場合は一律罰金2000円(学生応援価格)
等
###環境
python
jupyter notebook
では今回はとりあえずここまでにして、次記事で1stミーティングの内容をアップします。