こんにちは、教育業界に就職した新卒1年目のデータサイエンティストです。
新卒研修ということで自分でコンテンツを探してプログラムを組み立てる機会をいただきました!
そこで、折角なので進捗状況や学んだこと等、以後の振り返りのためにポストしていこうと思います。
今回は、自分のスキル状況、目標、具体的なコンテンツについて書いていきます。
##現在のスキル
- SQLのSELECT文の基本的な部分が書ける
- pythonがほんの少し書ける(関数の実装くらいまで)
- Tableauが使える(Tableau アカデミックプログラムを利用していました)
ご覧の通り、一般にデータサイエンティストとして必要なスキルがほぼありません...
本当に0からのスタート、何から始めれば良いのか...
##目標
目標を立てる上で、こちらの記事を参考にさせていただきました。
データサイエンティストに必要なスキル要件
上記事によると、データサイエンティストに最低限必要なスキル要件は
- 東京大学出版会の統計学シリーズ3巻分に該当する統計学の知識
- みどりぼん及びアヒル本に該当するベイジアン統計モデリングの知識と確率的プログラミングのスキル
- はじパタに該当する機械学習の知識
- R / Pythonでコードが書ける
- SQL文法を含むデータベース操作の技術
- クラウドの知識
となっています。見事にほぼ該当しません。
3ヶ月でここまで完了することは難しいと思ったので、これらのスキルを身に付けることを一年目の目標としました。
その上で、新卒研修の目標として
を設定しました。
##やるコンテンツ
###統計学の時間 (https://bellcurve.jp/statistics/course/#step1)
- 統計学の基礎知識
- 程よく要約されているかつ章末に簡単な練習問題がある。
研修でこれをやり、自学で統計学入門を進めるという形で取り組んでいきます。
###東大松尾研データサイエンス演習コンテンツ (http://weblab.t.u-tokyo.ac.jp/gci_contents/)
- データ分析の全体像を速習できる
- 演習問題が豊富にある
東大松尾研が個人学習向けに公開されている演習コンテンツです。jupiter notebook形式で、知識を付けるとともにコードを写経し自分で実行してみることもできるということで今回使用させていただくことにしました。
###Cousera_Machinlearning (https://www.coursera.org/learn/machine-learning)
- わかりやすいと有名な講座
- 機械学習の全般
今回、機械学習関連のオンラインコースを調べていたところ、かなりオススメされていたので学習させていただくことにしました。
###Google Cloud Platform Fundamentals:Core Infrastructure (https://www.coursera.org/learn/gcp-fundamentals)
- GCPの基礎部分
クラウドの知識として、GCPについて学ぶことにしました。
まずは一番基礎的な講座をやります。
###From Data to Insights with Google Cloud Platform Specialization (https://www.coursera.org/specializations/from-data-to-insights-google-cloud-platform)
- Bigqueryなどデータサイエンス寄りの機能について
次に実務でも使用する可能性が高い部分を含むコンテンツを学習します。
###Data Engineering on Google Cloud Platform Specialization (https://www.coursera.org/specializations/gcp-data-machine-learning)
- Cloud Dataproc/Cloud Dataflow/Streaming Systems/TensorFlow周りについて
データエンジニア寄りの部分を学習します。
特に、GCPの学習コンテンツはハンズオン形式で学習できるので良いと思いました。
##終わりに
以上のコンテンツを入社してから約3ヶ月間行っていく予定です。
頑張っていきます!