#自己紹介
初めましてtmrtjと申します。私は現在株式会社音圧爆上げくんという会社に所属しており、プロKagglerとして活動しています。
これから、主にテーブルデータコンペに取り組むに当たって、そこで得た知見などを記事として投稿していく予定です。
また、コンペに直接関係する内容の記事はprivate sharing に当たらないように該当コンペのDiscussion にも同じ内容のものを投稿します。
私は現在プロKagglerとして、業務の一環で、現在Kaggleで行われているコンペの一つであるTabular Playground Series - Jan2022 に参加しています。
Tabular Playground Series とはテーブルデータコンペで、去年の1月以降、毎月コンペが開催されています。Tabular Playground Series を初心者の方へ紹介するにあたり、今のKaggle におけるテーブルデータコンペの現状について簡単に説明します。
#Kaggleにおけるテーブルコンペの現状について
最近は、Kaggle 上でのテーブルデータのコンペが減っています。
また、時系列データコンペをより現実的な問題設定にするために、Time-Series API という、推論に使うデータが逐次与えられる仕組みを用いたコンペが増加しています。Time-Series API コンペは、従来のコンペとは違いtest データを触ることができず、Adverasal Validation など、未来のデータを用いた精度向上のテクニックを使うことができないため、より現実のデータサイエンス業務に即した問題設定のコンペになっています。
Time-Series API コンペはこのような利点があるものの、csv やコードを提出するだけで済むコンペに比べるとエンジニアリングの面での難易度が高く、初心者には敷居が高くなっています。
#Tabular Playground Seriesについて
以上のような流れを受けて、最近は初心者が取り組みやすいテーブルコンペが少なくなっています。また、discussion やコンペ終了後に公開される解法などもとてもレベルが高く、全くの初心者だと、そのハードルの高さに面食らってしまうのではないでしょうか?(私もその一人です...)
その点、Tabular Playground Seriesは、予測値の提出はcsv ファイルを提出するだけで済みます。また、与えられるデータも、実際のデータに基づいた人工データが与えられ、厄介な前処理などがあまりなく、あまりデータセットのサイズも大きくありません。そのため、初心者であっても取り組みやすく、手軽にデータ分析を体験できるコンペになっています。
こうした理由からか、Tabular Playground Series では賞金やメダルは獲得できないものの、毎回多くの人が参加しています。
#「Kaggleに興味はあるけど手頃なコンペが...」という方へ
私はまだプログラミングを学び始めてから1年程度の初心者ですが、レベルの高いdiscussion やcode に圧倒されながらも、なんとかKaggle を楽しめています。
機械学習、データサイエンスに興味のある方であれば、とても取り組みやすく、参加するに値するコンペだと思います。
ぜひ参加してみてはいかがでしょうか。
#人材募集
株式会社音圧爆上げくんではプロKagglerを募集しています。
ご興味のある方はぜひ以下のリンクをご覧ください。
Wantedlyリンク