初めに
この記事は「データサイエンスって?」から「データ分析初めてみたけどよくわからん!ソロきつい!」程度までの人向けの記事です。
大分抽象度の高い記事しなっていると思うので
ばりばりコンペに参加している人にとっては退屈以外の何物でもないのでご了承ください。
また、技術的な側面は先人たちがqiitaに山ほど残してくれていると思うのでここでは環境的、気持ち的なことを主に述べようと思います。
自己紹介
現在同志社大学経済学部のB2のヘキサゴンです。先日signate_student_cupで初公開コンペ初ゴールドをとれました。
チームを組んでくれたkatoro君、ありがとう!
(登録日の詳細は下でお話します)
注意
この記事はあくまで僕が勉強した中でのやってよかったこととやらないほうがいいことを述べていますが人によってはここが逆転する可能性もあります。
また、僕自身も勉強し始めて大して経ってないので、ここから意見が真反対になるかもしれません(笑)
それを踏まえて以下の文を読んでくれると幸いです。
僕が勉強した時間軸ごとに説明していきます
超入門(2022/5~6)
大学一年の頃にあまりに暇だったので「なんとなくかっこよさそう」というだけの理由でデータ分析を一か月ほど勉強しました。結論から言うと一ミリも理解できずに途中で投げ出してやめました。
【やってよかったこと】
・データ分析に興味を持ったこと
【やらないほうがいいこと】
・それ以外
詳細
このタイミングの僕のスペックとしては
・数学1a2bならまぁわからんこともない
・数3はマジで知らん
・プログラミングなんてもっと知らん
といった完全にまっさらの状態です。正直よく興味を持ったなというレベルですね。
そしてどのように勉強していたかというと
・大学の図書館でpython入門書を読んでできた気になる
・スタバでパソコン開いてpythonの四則演算を繰り返す
・知り合いに「俺プログラミング勉強してて~」と言いふらす
という風に非常に精力的に勉強してました。
…見るに堪えませんね。
明確で具体的にやりたいことをはっきりさせたうえで勉強しないと大して身につかないいい例です。
では明確な目標が無かったら絶対に勉強できないか?下に続きます。
入門(2023/4~7)
大学二年の春、いつも通り暇なので何か面白そうなことはないかとネットをあさっていたら「東大が主催するデータ分析講座(以下GCI)」というものを見つけました。
東大が主催するデータ分析講座です。
むちゃくちゃ強そう(小並感)
https://gci.t.u-tokyo.ac.jp/、
この講座が無かったら今頃僕は多分データ分析はまったくしていない、と言い切れるほどの良いものでした。
ではこのGCIの良かった点、悪かった点を再現可能な、より一般化できそうなレベルに落として説明していこうと思います。
【良かった点】
1.週一ペースで宿題が出されるハイペース授業
2.できるだけ数学よりな知識を必要とせずにモデルを組んでいく
3.仲間がいる゛よ!!!!
GCIでは週に一回宿題が出されてそれらをこなしていかないと修了不可になるというスタイルでやっており、目標がない人でも一週間どこかのタイミングで確実にコードに触わらないといけないという状況が勝手に作り出されるものでした。
また、ややこしい数学の説明はできるだけ事後学習という形にして実装に重きを置いていた点もよかったです。
そしてなんといっても個人的に一番ありがたかったのが約2000人規模のslackです。(正確な数字は忘れました)
毎日誰かがslackで質問してそれに誰かが答えている、といった生きているコミュニティを感じさせてくれましたし東大の運営も積極的に質問に答えオンラインならではの、時間外での接触も可能という面も光ったと思います
一般化してまとめると
・ハイペースに
・数学的な理論面をできるだけ減らした流れの分かる実装メインで
・生きているコミュニティで
勉強するとはかどると思います。
【悪かった点】
・データ分析ではなくプログラミングの勉強が少し長かった
今現在「コードを書く」という点だけ見れば生成AIの普及によりコードを少し手直しするだけでいい、という状況ができつつあります。(ここに異論はあると思いますがこれは単に自分の必要としているコードのレベルの低さも関係してくると思います(笑))
であるならばデータ分析の勉強をする中で「一番面白くない」コードの勉強をさっさと終わらして「一番面白い」実装への参入がしやすいのでは?と思います。
え?そんなコーディング力だからいまだにインデント分からなくなるって?
…
そんなもん後で修正すればいいんだよ…
コンペ実践(2023/7~8)
ここからは約一週間のソロでの活動の後、LAIMEで出会ったkatoro君とのチームでの活動の二週間の、計三週間に及ぶ激闘が繰り広げられました。
コンペってなんだよって人はここからhttps://aismiley.co.jp/ai_news/data_competition/
ここでコンペの内容を細かに語ってもしょうがないので感じたことを一般化したものを述べていこうと思います。
【良かった点】
・(LAIMEに入った)
・チームを組んだ
・夢中でマジになった
LAIMEってなんぞやって方はこちらhttps://laime.optal.info/
まぁ要はGCIの時のようなウン千規模ではなく、30人程度の小、中規模の機械学習の勉強コミュニティです。(数字間違ってたらゴメン)
また、他の特徴としてkagglemasterとexpartで半分以上を占める強強コミュニティでもあります。
とまぁLAIMEの紹介はそこそこにしておいて、
なぜ大規模ではなく小中規模のコミュニティに入るほうがいいか?問題はそこです。
それはチームの組みやすさにあると思います。
(如何せん入って一か月なので断定はできませんが今のところはそう感じます)
大規模コミュニティになると活気はありますが方向性がばらばらでやりたいことを一致している人を見つけにくい(チームを組みにくい)というデメリットがある一方、小中規模だとその人数と代償により、目標(LAIMEで言うと機械学習コンペを頑張ろう)の相関が高い人が見つけやすいメリットがあると思います。
そして最後にアホみたいに「夢中でマジになった」と書いてありますがこの通りです。
ここは特段再現性もあるようなところではないので割愛します。
【悪かった点】
なし
自分のコンペの細かい取り組み云々については山ほどありますが、環境的には文句のつけようのないものだったと思います。
まとめると
・より具体的な相関の高い目標を掲げている小中規模のコミュニティに入る
・チームを組む
㊟あえて機械学習のコミュニティと書いてないのはデータ分析一つとってもここら辺から人によってやりたいことが変わってくるからです。
まとめ
長々とへたくそな文章で説明してきましたが基本的に箇条書きにしている部分の太字が私の伝えたいことです。
なーんだこの程度なら私も思ってたよって人はごめんなさい。
許してヒヤシンス
…
皆もデータ分析はじめよう!