1.はじめに
どうも初心者です。
機械学習コンペへの人生初参加から二連続でメダルを獲得できたので今まで自分なりにしてきたことを軽く書こうと思います。
2.参加コンペ
Kaggle "ICR - Identifying Age-Related Conditions"
コンペ概要
2023/5/12~2023/8/11に行われた加齢に伴う健康状態を表す特徴量をもとに匿名化された3種類の病気のいづれかに罹患しているか否かを予測するテーブルデータコンペ。比較的単純なタスク設定だったので約6500ものチームが参加し、とても大きなコンペとなりました。
結果
🥉 581位
SIGNATE "Student Cup 2023"
コンペ概要
2023/7/24~2023/8/24に行われた中古車に関する情報を特徴量として中古車の価格を予測するテーブルデータコンペ。学生限定で開催され約600人の学生が参加しました。
結果
🥇 10位
3.出場に至るまで
独学初期
昨年(2022年)の冬あたりから機械学習に興味を持ち始め、とりあえず「機械学習 独学 ロードマップ」でググるようなテンプレムーブをして、下記のような初学者向けの本で雰囲気を掴もうとしました。特に深層学習系に興味があったためほとんどその系統の本やサイトしか読まなかったため、後に他の手法を理解するのに時間を要することになりますが、このおかげで深層ニューラルネット系の理論や実装に自信を持てました。
下記は東京工業大学の岡崎直観先生によって作られた初学者向けでかつシンプルな大学数学を使って解説された機械学習独学サイトです。実装に関してはこれに非常にお世話になりました。2個目のGithubのレポジトリは実際に機械学習帳を使って勉強した方が学習ノートのように簡単にまとめてくれているものです。練習問題を解いたものも載せてくれているのでこれにも非常にお世話になりました。
コンペを意識し始める
上記の独学初期から時は過ぎ、今年(2023年)の春休みに時間ができたこともあり、コンペに向けた勉強を始めようと思い、「Kaggle本」と呼ばれる実際にKaggleで輝かしい成績を残されている方々によって書かれ、Kaggleで勝つための技術が詰まった本を読みました。ここで自分の今までの独学の偏りに気付かされました。先に言及した通り、深層ニューラルネットワーク関連に偏った勉強をしていたため、実際のコンペで用いられるモデル(決定木、アンサンブル系etc)や前処理など知識として不足している点が散財していました。そのため、Kaggle本によって一通りの知識を入れることができましたが、それらの理解を深めるために一連の流れを手を動かす必要がありました。そこで非常に役に立ったのが以下のKaggle上の練習用コンペです。これらをKaggle本を握りしめながら復習も兼ねて行いました。これによって、コンペの基本的な流れやちょっとしたTipsのようなものを得ることができました。
いよいよ参加
上記まででコンペに参加できるレベルには達したと思ったので、いよいよ参加を決意しました。初めて参加したKaggleのICR - Identifying Age-Related Conditionsはkaggler-jaという日本のKagglerの方々が一堂に会しているSlackワークスペースにて共有されていたため知りました。このSlackはKaggleについての情報や機械学習における知識共有などが行われ、begginerにとっては非常に有益な場であると思います。
コンペ振り返り
これについては別稿として投稿したいと思います。拙い文章でしたが最後までお読みいただきありがとうございました。何かご質問、ご意見、お文句などありましたらお気軽にお申し付けください。