執筆の経緯
夢をぶち壊すような記事でごめんなさい
初めてのkaggleに挑戦してみて色々と考えたことがありました。
初めてながらもデータサイエンスで成績を残すことがどのくらい難しいのかわかったので
ややポエムチックな記事ですがアウトプットしたいと思います。
メダルの難易度を知りたくて調べると出てくる
『初心者だけどメダル取れました』みたいな感じの記事を
真に受けてしまうひとがいないよう警鐘の意を込めたいという気持ちがあります。
kaggleなんてやるなって意味じゃありません、地道な努力を積み重ねて素人から中級者へ、
そこから上級への壁をぶち壊して__いつかは__メダル獲得をしたいねという話をするのが目的です。
ちなみに初参加のコンペはこちらです。
https://www.kaggle.com/c/commonlitreadabilityprize/overview
2066/3633という順位でまずは上位半分は目指せるように頑張りたいなという感じです。
なぜ素人には勝てないのか
そもそもこのデータサイエンスの分野が広大な地図になっていることが原因です。
扱うデータで数値、自然言語、画像があり、
モデルをとってもGBDT、ランダムフォレスト、サポートベクターマシーン...etc
さらに特徴量抽出の方法を考えたりなんて多方向へ学習のエネルギーを向けないといけないので、
よっぽど時間がある人でないとコンペ期間で理解しきって自分なりの最強モデルを作成だなんて無理があります。
いくら勉強して他の方のコードなど参照しても全然霧が晴れないんですよ、
勉強してキャッチアップできた部分があったとしても霧が深まることもあります...
なんだか深い森に迷い込んでしまったような
素人がkaggleに参入するとこんなもどかしさを味わうと思います。
おそらくこの霧が晴れないうちはメダル獲得なんて遠い話です。
よくある素人でもメダルとれたよみたいな記事
上位者が公開しているノートブックがあるのでそういったものを見てディスカッションを深く理解すれば初参加でメダル獲得も夢じゃないみたいな話を見たことが何度かあったのでちゃんと勉強すれば私にも...って淡い期待を抱いていました。
そもそもそういう方のバックボーンを見ると元々データサイエンスを実務でやってはいて
kaggleに参入しての分析は初めてだっただけとかゴリゴリの理系数学マンだったとか
それなりに持つもの持っている方が多い印象です。(素人の皮被った上級者ですね笑)
まぁこれくらいだったらいいのですが、そういうの昔の記事が多くないですかね?
最近のkaggle事情を聞くと以前に増して複雑なデータを扱う機会が増えたと聞きます。
今は前処理が大変だったり、特徴量抽出をよく考えて工夫しないといけないとか、
より実践的なデータ分析を行わなければならないと聞いたことがあります。
逆に考えるとkaggle頑張ればより実務経験として認めて貰えるようになってきた?
素人でもメダル取れるとか、あまり背景知識なんてなくてもkaggleでアウトプットしてたらメダルとれちゃうぞなんて話は鵜のみしちゃいけないって思います。
それなりの覚悟が必要
私は2年ほど緩く勉強してきた身だったので、
参入前はなんとなく真面目に数か月頑張ればメダルとれるっしょみたいな気持ちでした。
でも1か月頑張ってみて到底納得のいく成果が出せず完全に見くびっていたなという感じです。
私のような軽い気持ちで始めてしまうと心がポッキリ行きます、ポッキリと(笑)
ただ、メダルなんて遠いとしても、1か月前の自分と執筆中の自分は明らかにスキルが違うという自負があります。スコアを上げたいと思って試行錯誤をしたのは非常に濃密なアウトプットでした。
参考書とにらめっこして勉強してきた自分からは1皮2皮剥けましたね!
それでも貴方はkaggleをやるのか
以上kaggleをやってテキトーにメダルとって転職できるっしょみたいな、
アメリカンドリームには期待できないぞという話でした。
今現在データサイエンスの分野は非常に注目され発展も目覚ましいので、
扱うデータはドンドン複雑化されコンペで求められる技能水準もガンガン高くなっています。
始めれば分かりますが、データサイエンティストとして成功するには非常に険しい道のりだと思います。学習も大変で、次々出てくる新しい技術にキャッチアップしていかなければなりません。エンジニアに求められている最新の技術の勉強という点が余計に必要な分野だと感じました。生涯学び続けるくらいの覚悟がないといけないのでしょうか...
中々大変ですね。
なかなか参入障壁の高い分野だとは思いますが、
堅実に努力を重ねてデキるデータサイエンティスト目指していきましょう!