学習ロードマップ(DSL CORE エンジニアリング代表:@mohki7)
Data Science League COREのエンジニアリング代表、大木です。
僕がこれまでにやった教材とその感想、そしてそれをやった結果どうなったかをまとめます!
皆さんの勉強に役立ったら嬉しいです😆
何か質問があれば、いつでも遠慮なくお気軽にSlackまたはTwitterのDMまで!
追記:DSLエンジニアリングメンバーの清水さん( @tomato_boy77 )にも学習ロードマップを書いてもらったので、そちらもぜひ。
AWSやアプリ開発が自分のより多めになっています。
自己紹介
慶應義塾大学理工学部管理工学科4年。データ分析系の研究室に所属。
将来はマーケティング×データサイエンティストになることを目指し、日々勉強中。
データ分析やWebアプリ開発に興味があり、さまざまなことに手を出している。
OpenCVを用いたジェスチャーでパソコンを操作するアプリや、ChatGPTのAPIとNotion APIによる自動要約機能付きNotionデータベースを作成したこともある。
Twitterのフォロワーは4000人越え。→ @A7_data フォローしてね。(ここ最重要)
SNS
- Twitter: @A7_data (あまりにも重要なのでもう一回。フォローしてね。)
- Qiita: https://qiita.com/mohki7
→優良教材、イベントへの参加記録、詳しい資格取得時の話、その他学んだことを発信。
イチオシ記事↓
取得済み資格
- 統計検定準1級(最優秀成績賞)
- 統計検定2級(優秀成績賞)
- 日商簿記3級
- データサイエンティスト検定
修了済み教材
- CS50
コンピュータサイエンスの初歩の初歩からPythonによるWebアプリ制作まで学べる。ハーバード大学の授業がYouTube上に公開されており、課題をこなしつつ進める型。修了すると修了証がもらえるが、ちゃんとかっこいい。
- CODEGYM Academy
CS50を受けた時に利用していたオンラインプログラミング教室?無料。CS50を約半年かけてやり、その後各自でWebアプリを一つ作成する。場合によってはチーム開発も体験できる。毎週一定の量の課題をこなさなければならず、できないと退校処分。割ときつめで、最後残ったのは半数もいなかった。全くの初心者、もしくは少しプログラミング触った人にはおすすめ。
- 慶應義塾大学FinTEKセンター「データサイエンス講座2021」
慶應主催のデータサイエンス講座。慶應生がほとんどだが、データサイエンスを学べる。ただ、同じチームになった人のやる気の差が激しく、正直自分で勉強した方が手っ取り早い。
- AIC 機械学習入門
AICが行う機械学習入門講座。オンデマンド形式。ある程度機械学習を分かってからやったので、あまり得るものはなかった。あと説明がやや雑。機械学習の理論は勉強した、とか機械学習の実装を始めたばかり、という人にはいいかも。
- AIC 深層学習入門
AICが行う深層学習入門講座。オンデマンド形式。PyTorchを使って色々なモデルを実装する。ただ、説明が雑で、最初はよくわからなかった。深層学習を少しわかる人、PyTorchを少しわかる人はいいかも。
Udemy
- Git はじめてのGitとGitHub
Gitの無料講座。山浦清人さんというYouTubeでも活動している人がわかりやすく解説。
- 【前編】米国データサイエンティストがやさしく教える機械学習超入門【Pythonで実践】
これはめちゃくちゃ良い。めちゃくちゃわかりやすいし、手を動かしながら学ぶので理解できる。通常時に買うと高いが、ご本人が発行しているクーポンを使うべし。クーポンはTwitterで発行される。
Twitter→@usdatascientist
- 【後編】米国データサイエンティストがやさしく教える機械学習超入門【Pythonで実践】
これもめちゃくちゃ良い。前編同様。前編とセットでやるべし。
- Git: もう怖くないGit!チーム開発で必要なGitを完全マスター
GitとGitHubで使うコマンドを網羅的にわかりやすく解説してくれる。図解つきなのでわかりやすい。
- 米国AI開発者がゼロから教えるDocker講座
機械学習と同じ、米国データサイエンティストのかめさんがDockerをわかりやすく教えてくれる。
HerokuでWebアプリをデプロイするまでやった。気がする。これもTwitterで配られるクーポンを利用すべし。
- AIによる画像生成を学ぼう!【VAE/GAN】
画像生成モデルのVAEとGANをGoogle Colabolatoryで実装する。まあやっても良いけど、やらなくても良い。
コンペ等
- SIGNATE: Intermediate
- Kaggle: Contributor
時系列順で整理
B1 〜 B2
色々なものに手を出していた。株、中小企業診断士、ブログ、プログラミング、、、
全て今やっていることにつながっており、無駄だったことは一つもない。と思う。
B2 秋
管理工学科の統計学の授業(統計解析)を受け、統計学面白いじゃん!統計学を使う仕事ないの?ってなる
B2 3月
統計検定2級合格
統計検定2級合格。授業を受けていたこともあり、少し勉強していけた。
- 参考にしたサイト
このサイトに2級の範囲は全て網羅されてる。これと問題演習をこなすだけでもいける。
僕の記事。ここにまとまってます。読んでね。
- 過去問
過去問。これは絶対やるべき。
B3 5月
データサイエンティスト検定合格
データサイエンスに関することを幅広く学べる。単語を覚えるだけなのでスキルは身につかないが、広すぎるデータサイエンス界の全体像を掴むことができるので、個人的にはおすすめ。これからの学習ロードマップを考えるのにも役立つ。
こちらも記事にまとめてあるので見てね。
B3 9月
統計検定準1級合格
めちゃくちゃ難しかった。詳しいことはQiita記事にまとめてあるので、これを見てね。
統計をしっかりやりたい人は抑えておくべきものばかり。範囲が広すぎるので統計に詳しくない人は割と時間がかかる。
買うものは2つ。
- 統計学実践ワークブック
なんだかんだ言って、これしかない。難しいけど、これをやるしかない。
- 過去問
過去問演習も必須。
B3 10月
機械学習勉強開始
データサイエンティスト検定を受けたこともあり、全体像は把握済みだったので、個々の手法を詳しく詰めるために本格的に勉強を開始。
最初は、データサイエンティストのかめさんのUdemy講座がおすすめ。
- データサイエンティストかめさんのUdemy講座
基礎的な手法を理論・実装で学べる。わかりやすいし、めちゃくちゃおすすめ。さらにこの方のブログに大量に統計・機械学習の記事があるので、そちらもめちゃくちゃおすすめ。ブログは無料で学べる。
その後はKaggleのコンペの公開されている他の人のノートブックを読んだり、かの有名なKaggle本を読んで知識を得た
- Kaggleで勝つデータ分析の技術
Kaggleのテーブルデータコンペの戦い方がこれに詰まってる。結構分厚くて読むのには苦労するけど、辞書的な使い方もできるので超おすすめ。Kaggleで強い人は誰もが知ってる名著。ただ、全くの初心者が読むには一苦労する。
B3 12月
深層学習勉強開始
こちらもデータサイエンティスト検定を受けたこともあり、なんとなくは把握していた。さらに詳しく学ぶためにアルゴリズムから勉強を開始。
- ヨビノリさんの動画
理系なら誰でも知ってるヨビノリさんの動画見れば最初はOK。
さらにこの本をやれば良いと思う
- 分析モデル
AI系YouTuberのアイシアさんが書いた本。さまざまな機械学習・深層学習モデルの理論的中身、歴史的背景がわかりやすい数式、図解と共にまとめられてる。普通にめちゃくちゃ面白いし、天才たちのアイデアを知ることができてとても良い。
B3 1月
初めてコンペに本格的に参加
SIGNATEの金融データ活用チャレンジに参加した。通常コンペへの参加はこれが初めてで、わからないことばかりだったけど、色々な人のブログを読んだり、kaggle本を参考にして頑張った。結果はあまり良くなかったけど、Dababricks賞をもらえたのでとりあえずはよき。
参加した時の記事はこちら
B3 2月
100programに参加
東大のどこかが主催しているハッカソン。2ヶ月でチームを組んで何か面白いものを開発しよう、というもの。初心者から経験者まで幅広く参加できる。教材費として2万円がもらえた。チーム開発を経験でき、参加者の半分以上は東大生だったので優秀な人とも関われるチャンス。
B4 4月
データ分析系の研究室に所属
管理工学科の鈴木研究室に所属。データ分析を中心に学ぶ。まだまだ始まったばかりだが、優秀な人がたくさんいて、楽しい。
分野別に時系列順に整理
詳しく記録をとっているわけではないので、正確ではないが、自分が学んだ順になるべく整理してみた。また、これ以外にも細々としたものはやっていると思う。
機械学習
- 統計検定2級
機械学習をやるには統計をやっておいた方が良いと思う。2級レベルはぜひ習得しておきたい。必須というわけではないけど、やったほうが後々スムーズに進める。準1級はまだ先でいい。 - データサイエンティスト検定
これは必須ではないけど、これのおかげで全体像を掴んだ状態で学習をスタートできた。 - データサイエンティストかめさんのブログ
-
データサイエンティストかめさんのUdemy
まずはここら辺から始めてみるのが良いと思う。めちゃくちゃわかりやすいし、ブログは無料。 - コンペに参加
理論を一通りざっくり勉強したら実践しながら学ぶのが良いと思う。SIGNATEの練習用コンペ、Kaggleのタイタニック、YouTube動画などがおすすめ。いまにゅさんの動画はどれもよき。ただ古くなってきているので注意。 - コンペと並行しながら本・ウェブサイト・Udemyをやりまくる
・ゼロからつくる機械学習
この本なんかはDSLの輪読会で扱ったもの。理論ゴリゴリだけど機械学習を深く理解したいなら良い。
- データサイエンス協会の100本ノック
コンペに出ると、自分の実装力不足を実感すると思う。そういう時はまずはこれをやるべし。結構力が付くし、知らなかったテクニックをたくさん知ることができる。
プログラミングができずにコンペでは勝てない。
- SIGNATE練習用コンペ
チュートリアルが豊富で、練習するにはとても良い。この練習用コンペをDSLのエンジニアと一緒に進めよう!というイベントを定期的に開催しており、質問もし放題なのでぜひ参加してほしい。
- Kaggleのノートブックを読みまくる
これは自分もまだちゃんとできていないが、Kaggleで過去のコンペがたくさん公開されており、そこに上位入賞者のコードがたくさんある。まさに宝庫。
これをたくさん読めば力は絶対につく。はず。
- Kaggle Grandmasterに学ぶ機械学習実践アプローチ
海外では超有名な本を日本語訳したもの。まだ読めていないが、Kaggle本同様、これもめちゃくちゃ良いと評判なので楽しみ。
深層学習
機械学習をやっていると密接に関わってくるのが深層学習。機械学習手法を一通り勉強したらこっちに手を出してみるのも良い。chatGPTやWhisperやら世の中を騒がせているAIは全て深層学習モデル。
- まずはYouTubeなどで概観を掴む
ヨビノリさん、アイシアさんがおすすめ。 - 分析モデル
どんな手法があって、深層学習モデルはどのような進化を遂げてきたのか、そしてそれぞれのモデルの詳しい内容を学べるめちゃくちゃ良い本。こういうのを知りたい人はこれが良い。さっき紹介したアイシアさんが書いた本。
- ゼロから作るDeep Learning 1
誰もが知る名著。numpyを使ってディープラーニングモデルをスクラッチで実装するので本当に理解できる。モデルの理解のためにもまずはこれからやるのがおすすめ。1は基本的な深層学習手法、2は自然言語処理系。自然言語処理系はまた後で良い。
- 最短コースでわかるPyTorch&深層学習プログラミング
深層学習をプログラムするためのフレームワークはTensor FlowかPyTorchが有名だが、僕はPyTorch派。なぜならロゴがかっこいいから。PyTorchは研究分野ではほぼ覇権を握っており、実務でも利用者がどんどん増えている。PyTorchで書きたい人はこの本がめちゃくちゃおすすめ。本当に一歩ずつ解説されていてつまづくところがない。最初の一冊はこれ。
- 東大松尾研深層学習基礎講座
日本一のAI系研究室で超有名な東大松尾研が運営している講座。めちゃくちゃ良い。修了するとE資格の受験資格や特別なインターン、起業プログラムへの参加などができる。これはぜひ受けておきたい。自分はいま参加中で、優秀生を目指して奮闘中。ただ、東大の大学院の授業なので普通に難しいし、周りの生徒のレベルが高くて高くてなかなか勝てない。強い。みんな。すごい。
-
Kaggleに挑む深層学習プログラミングの極意
深層学習モデル中心でKaggleに挑むノウハウが詰め込まれてる。まだやれていないけど、評判が高いので楽しみ。
Web開発
Web開発はそんなに力を入れていないし、実力も雑魚なのでまあ軽い参考程度に。
- ProgateでHTML, CSSを習得
ゼロから書くことはほとんどないので軽くでいいから一周やれば十分。わからなかったら調べればいい。
- CODEGYM Academyに参加
Flask, SQLiteを使って多種多様な発展的なToDoアプリを開発 - 100programに参加
Flask, OpenCVを使ってジェスチャーでパソコンを操作するWebアプリを開発 - HackGPTに参加
ChatGPTのAPI、Notion APIを使って要約機能付きNotionデータベースの開発
Pythonしかまともに書けないので、フロントエンドができない。なのでこれからはJavaScriptにも手を出して学んでいきたいと思ってる。
まとめ
なるべくわかりやすいように、順番に並べてみたが、正直これ以外にもたくさんやっている。統計を勉強し始めて1年半くらいが経ったけど、1年半でゼロから統計検定準1級、機械学習全般、深層学習も少し、というレベルに到達できている。毎日少しずつでも良いから続けるだけで良い。
DSLでは今後もこれらの教材を使ったもくもく会、ハンズオン会をどんどんやっていくので、同じ道を目指している人はぜひ参加してほしい。質問もいつでも受け付けているのでSlackまたはTwitterのDM、匿名質問箱からいつでも遠慮なくください🫡