LoginSignup
45
42

More than 3 years have passed since last update.

Kaggle始めてみました

Last updated at Posted at 2021-02-23

Kaggleって何?

Kaggle が該当サイト。一番有名なイメージは、機械学習に関して賞金が出るコンペティションが多数開催され、世界中の手練れデータサイエンティストがしのぎを削って競争しているプラットフォーム、というものでしょうか。

この記事を開く人は、そんな事既に知っているという人が多いと思いますが、実際に試してみると結構イメージと違う部分あったので初心者的観点でそんな部分を紹介してみたいと思います。

※お前が妄想しすぎだというツッコミはご容赦を。

登録

Googleアカウントでもメールアドレスでも登録が可能です。私は個人Googleアカウントで登録しました。手順は説明するまでもないと思います。

Learn

トップページからちょっと下の方に行くと Learn という見出しがあり、ここをクリックすると、各種学習カテゴリがあり、その中に小さな学習コースがある形です。以下4カテゴリは人気があるのかトップページからのリンクがあります。

画像(2021-02-23現在):
image.png

機械学習の手練れでないと参加できない様なイメージでなく、機械学習やってみようという人にも門戸が開かれている感じです。チーム内とかでの勉強会のネタにいい感じです。

Competition

上記Learnの下に Competition という見出しがあり、同様にコンペ題材のリストに飛びます。その中で、基本的な題材が4つ紹介されています。それぞれの課題を勝手に推測すると以下の様になります。

Titanic課題

上記Competitionのリストを開くと、有名(だと思う)なTitanic生存予測課題がサジェストされます。

image.png

詳細ページを開き、説明文を見ると豊富な情報が載っています。それらを順番にこなしていく事にします。3つの大きなコンテンツがあり、文章はそれの説明みたいな感じです。

YouTubeビデオ1

Kaggle自体や、課題の概要紹介です。

チュートリアル

今回の目的のメイン。冒頭に、十分な知識が無い人でもここから始めましょう的な事が記載されてます。
その後、実際に後述のKaggleNotebookを使ってTitanic課題を進める事にします。やってみると、Kaggleでの提出やロジック改善の流れが良く解ります。

  1. KaggleNotebookを開く
  2. KaggleNotebookを使って、コードをコピペしながら進める。
  3. 女性か男性かで推測した結果を登録。
  4. 順位確認
  5. コピペでRandomForestClassifierを使って推測した結果を登録。
  6. 順位確認(少し上がってる)

どんなデータを提出するのか、どうやって改善していくかの初歩を教えてくれます。ちなみにこの時点でスコアは0.77511です。順位の下の桁が見れなかったけど、101**/18197。半分ぐらいの所ですね。チュートリアルやらないで適当に予測したのを提出している人とか間違えてアップした人が多いのかもしれません。
あと有名な割には2万人弱って少ないような気がします。登録者自体は8万人いるっぽいのに。けどそれでも自分のイメージより少ないですね。何にせよ、Kaggleの事をよく知らない人には「俺、機械学習のコンペに参加して、そこそこの順位になった事あるんだよね」とかの見栄を張る事が可能です。よく知っている人はランク聞いてくると思うので、そこらへんはご自分の責任でお願いします。

YouTubeビデオ2

その他注意点、課題の種類、ランキングシステムに関して、課題によって賞金が出たり出なかったりする事の説明です。
細かくは間違いがあるといけないのでビデオを参照してもらうとして、課題をこなしたり、コミュニティに貢献すると良いランクがもらえる様です。Kaggleで良いランク持ってる人は多分良い感じで機械学習界で認知されると思います。

情報漏洩に対して説明している部分で、以下の英文の意味が何を意味しているのか良く解らなかった・・・隠喩しすぎ?

you are trying to predict if someone will get an illness. but you don't remove information about whether someone was treated for that illness.

用語解説:Notebook

データサイエンティストなど機械学習の研究をしている人たちが良く使う(はずの)ツールです。コード記述及び実行、結果確認、説明記入が可能で、まさに実験ノートです。JupyterNotebookというものが有名ですが機械学習は性能の良いマシンが必要なケースが多くお手軽という感じではなかったです。
しかし、最近はブラウザ上で同様な事が出来(るので自分のPCには影響なし)、しかも無料の GoogleColaboratory が有名になってきてます。そして、Kaggleでも同様にブラウザ上で動くNotebookを提供しています。こちらも無料。KaggleはGoogleに買収されたという事で、裏のエンジンは同じものを使っていると思われます。

Code

Titanic課題における他の人のソース を参照する事が可能になってます。他の好スコア出してる人はどうしているのだろう、という事を学ぶ事が出来ます。

ポイントまとめ

  • データ分析にはJupyterNotebookとかGoogleColaboratoryというツールがありますが、Kaggleも無料で準備してくれている。
  • micro-course と名付けられた自己学習教材がそろってる
  • Titanic課題によるチュートリアルで提出までの流れが把握できる&Kaggleやったという実績が得られる
  • 同一課題を手練れデータサイエンティストがどう処理しているか参考にする事が出来る(自分的にここが大きい)
  • コミュニティで相談できる(自分はまだやってないけど)

終わりに

最近はライブラリやサードパーティーサービスも充実しているので、自分で深いロジックを使って何かするという事は減ってるかもと思いますが、機械学習系人材は足りてないという話も聞くので、少なくとも基礎を理解しておく事は無駄にはならないと思います。
賞金を稼ぐという目的ではなく、実践経験を身に着けるという目的でも良いプラットフォームだと思います(まだ入り口に立った段階ですがw)。

45
42
1

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
45
42