はじめに
この記事は、Kaggleを始めたいけれど、何から始めようかな?という方に向けて、
データ分析未経験の自分が、Kaggleを始めるまでの経緯と、始めた方法、始めてみて感じたことなどを書こうと思います!
「これなら自分もできそうだぞ」と思っていただけたら幸いです!
わたしはこんな人
ふだんはIT企業で事務職をしています。
VBA、Python、RPAアプリなども使います。
数学は高校1年レベル。勉強中!
Kaggleを始めるまでの経緯
大学時代、歴史学科に所属していた自分は、なぜか卒業間際に数理最適化やゲーム理論に興味を持ちました。
ただ、数学力ゼロかつそんな学歴でその類の仕事につけるわけもなく(理系の大学院卒の方の職種ですよね)、かと言って大学入学からやりなおす度胸もなく、とりあえず分野が近いであろうIT企業に就職しました。(卒業1ヶ月前に決めた!)
そこでいろいろあり(割愛)、事務職になり、やりがいも見出し、楽しく仕事していました。
が、数学を勉強したい気持ちはずっとあり、とっかかりを探していました。
そんなところに最近、世の中でデータ分析がフィーチャーされるようなりました。データ分析って最適化にちょっと近いですよね。これは良い波!と思っていたところ、コロナがきっかけで在宅になり心と体と時間に余裕が生まれたため、Kaggleを始めることにしました。
始めてみた
今年の9月ごろ会社の後輩を誘いとりあえず始めてみました。二人とも初めてだったのでyoutubeで以下チャンネルを参考にさせてもらいながら進めました。
何から何まで手探りでしたが、まずはtitanicのお題で何回かサブミットしてみました。性別をパラメータに入れたところ順位がぐっと上がり、二人でテンションが上がったのを覚えています。
現在
yukiさんにチームを組んでいただき、教えてもらいながらhouse pricesを題材に取り組んでいます(ありがたや🙏✨)。
特徴量って何ですか?モデルを作るって何ですか?ってところからスタートし、線形回帰モデルを作りながら基礎をおさらいし、今はいよいよLightGBMを使ってみましょうという段階です。精度いきなり上がるからお楽しみに!って言ってくださってワクワクしています!
途中から、このテキストを使わせてもらっています。↓
Kaggleを始めて感じたこと
私がKaggleを始めて感じたことを書きます。
新鮮だったこと
ツール作成系のプログラミングしかやったことがない自分にとって、Kaggleの以下の点が新鮮でした。
-
Kaggleにディスカッションという機能があること。
競い合いながら同時に情報を共有し合うという発想はそれまでの自分にないものだったので、新鮮に感じました。
コンペの中でも、Kaggle特有なのではないでしょうか。(と思うのですが、どうでしょう?他のコンペに参加したことがないので、わかりません。) -
ディスカッションやコメントにもメダルがあること。
情報共有自体にも価値があるとみなされ、評価対象になっているのがいいと思いました!
始める前/始めた後 のギャップ
Kaggleを始める前と始めた後で感じたギャップについて書きます。
始める前
Kaggleを始める前に、以下を不安に思っている人がいるかもしれません。(少なくとも私は不安でした。)
- 数学はできないとダメ?
- データ分析系の有名な本は読んでおいたほうがいい?
- Pythonは書けるほうがいい?
- 英語読めたほうがいい?
自分は、titanicでサブミットしてみたあと次のお題にいく前に、いったん基礎固めをしておくべきでしょうかと、先輩方にお聞きしてみました。
返ってきたのは「数学はできた方が良いけどできなくてもKaggleはできるよ。」とのお答え。そこで、エイッ!と始めちゃいました。
始めた後
やってみた感想としては、まずは飛び込んでみて良かった!と思いました。
もちろん、上記は、ぜんぶできるに越したことはありません!(T_T)
でも、まずは始めちゃうのが良い!と思いました。
なぜならKaggleは、上記の勉強を始めるトリガーとしても適しているからです。
WEBサイトも楽しい見た目で、サブミットするだけなら初心者でもできる。そして周囲の方とお話しできるのが何より楽しいし、刺激を受けて、自然と勉強も進めたくなります。
コンペに参加しながら勉強を同時進行で進めるのが良いというのが私の実感です。
始める前に不安に思っていたことに対して、自分の現状をまとめてみました。
-
数学:確率/統計は基礎部分からやり直しが必要
正直、ここがないのはかなり痛いです。そもそも話についていけないことが多いです。Kaggleとは別に、基礎学習を進めた方が良いと思いました。
自分は統計検定をマイルストーンとして設定し、3級の勉強からスタートしています。 -
データ分析の本:必要だが未着手
読んだ方が良いと思いますが、正直今はほとんどわかりません。
とりあえず入手し、未着手。 -
Python:とりあえずはなんとかなりそう
多少プログラミング経験があれば、まずはなんとかなりそうです。 -
英語:とりあえずはなんとかなりそう
これもグーグル翻訳に助けてもらえば、まずはなんとかなりそうです。
始めかた:とにもかくにもサブミット
最初は何から始めたらいいだろう?という方がいらっしゃると思います。
まずは上に挙げたような入門動画を見ながら、入門の定番titanicのお題でとりあえずサブミットするところから始めてみるのがオススメです。
Kaggleを始めて良かったこと
Kaggleを始めて良かったことをいくつか書きます。
-
数学を勉強するモチベが生まれた!
やりたいと思いつつ着手できていなかった統計、確率の勉強を始めるきっかけになりました。
数学教室の先生方に、基礎から教えていただいています。
ぶんさんってなに?ってとこからスタートです。
数学やりたかったのでとにかく楽しいです! -
社内で「データ分析に興味がある人」だと言いやすくなった!
「データ分析やりたいでーす」って言う人より「Kaggleをしています」って言う人のほうが、データ分析に興味あるんだなって認識されやすいと思いました。
「社内のデータ分析のウェビナーに参加してみますか」とお声をかけていただいたり、会社でKaggleアカウント作成して業務時間を少し使えたりするようになりました!
まだまだ社内ではそういうお仕事はなさそうですが、今後に期待しつつアピールしています。 -
世界が広がった!
これが一番大きいかもしれません。
Kaggle界隈ではTwitterなどの媒体を介して情報交換が積極的におこなわれています。そういった中で、様々な業界の方々と交流する機会に巡り会えたのは、予想外かつ一番うれしい副産物でした。
さいごに
データ分析未経験の自分が、Kaggleを始めるまでの経緯と、始めた方法、始めてみて感じたことなどを書かせていただきました。
今のところ、「楽しい!」しかないです。
はやく初心者を脱してチームを組んでメンバと一緒にもだえ苦しみたいです!!
読んでくださってありがとうございました。
ではでは!
※今回はじめてブログというものを書きました。そのため、sinchir0さん、fkubotaさん、shoku-panさんに文章を添削していただきました。ありがとうございました!