ポエム
DataScience

GWも明けたので社会人1ヶ月間を振り返ってみる

はじめに

こんにちは、教育業界に就職した新米データサイエンティストです。
現在データサイエンティスト新人研修を自分で組み、取り組んでいます。

新米データサイエンティスト、研修プログラムを考える。

約1ヶ月経過した今、「統計学の時間」と「東大松尾研の演習コンテンツ」を終え、CouseraのMachine Learningに入っています。
今回はGWも明けたということで、1ヶ月間新人研修をやってきて感じたことなどを振り返ってみようと思います。

最初に全体をざっと知ることが出来て良かった

自分的に、最初の段階で松尾研の演習コンテンツに取り組んだのは正解だったと思っています。

GCIデータサイエンティスト育成講座演習コンテンツ

コンテンツ構成が、最初にNumpyやpandas、matplotlibなどの必須パッケージの使い方を学ぶところから始まり、次にデータの前処理、可視化、モデル構築&予測、評価&モデル改善といった実際のデータ分析の流れに沿った章立てで学ぶことが出来ます。

さらに、このコンテンツでは演習問題がかなり充実していました。オライリーの機械学習関連の本は、コードは記載されていても演習問題はないものが多いと感じていたので、演習問題が豊富なこのコンテンツはかなり有り難かったです。データ分析の流れを様々なデータに対して繰り返し行うことができ、Kaggleに挑戦したいと思うきっかけにもなりました。
問題もステップバイステップという感じで、導入付きの数学の問題を解いているような印象でした。

これにより、必要最低限のパッケージの知識を得ることが出来ましたし、データ分析の全体のイメージをつかむことができました。
エラーなどでハマるポイントも少なく、スムーズに学習を進めることができました。
これからデータサイエンスを学びたいという方には強くお薦めしたいです。

インプットとアウトプットのバランス

至極当たり前のことなんですが、改めて感じました。

というのも、2週目の研修が終わった段階でKaggleのタイタニックデータに挑戦してみたのですが、写経とは違い、実際に自分の頭を探りながらデータの前処理をしたり、モデルを構築してトレーニングデータへの予測精度が出す、という一連のプロセスを実行できたことがすごく自信になりましたし、欠損値の処理方法や他のモデルの適用など自分に足りないものも見えてきました。

実際、モデル構築はただscikit-learnを使っているだけだったり、そこまで高い精度が出たわけでは無いのですが、すごく達成感があり、学習意欲が湧きました。

何かの本で、「アウトプットは次のためのインプット」ということをおっしゃっている人がいたのですが、まさに同じようなことを感じています。

  • インプットした知識を元にアウトプットすることで知識を「知っている」から「使える」に変えること
  • 理解の足りない部分、必要な部分が分かり、次に進むべき方向を見定めること

などの意味合いがあると思っていて、目標達成までに定期的にアウトプットをしていくことは、必要だなあと感じています。

新米データサイエンティストが覚えたての知識を使ってKaggleのタイタニックデータを分析し、投稿してみた!

KaggleのCTOが教えてくれた”AIエンジニアに超オススメな8つの学習ステップ”

必要性のないものはあんまり身につかない

これは僕自身に限った問題かもしれません(笑)

これを感じたのは、主に東大松尾研の演習コンテンツに取り組んでいる時です。
こちらの演習コンテンツは、pandasやmatplotlibなどのライブラリの使い方から、SparkやMongoDBなど広い範囲をカバーしています。

データ分析を進める上で必須になってくるであろう、pandasなどライブラリの使い方や、モデル構築、交差検証、グリッドサーチなどはかなり必要性を感じながら進めることができたのですが、SparkやNoSQLの部分は、これからおそらく必要になるタイミングはいずれ来るのでしょうが、現時点ではSQLが書ければ十分だったり、まだ分散処理を使うほどデータが大きくなかったりと必要性を感じることができず、正直あまり学習に身が入りませんでした。

なので、やはり現時点での必要性を感じないものは意欲を持って学習しづらく、身につかないのかなと思いました。
そこで、「鉄は熱いうちに打て」と言いますが、現時点で必要性を感じているものに関してはたくさん調べて深め、その上で新しいことにどんどん挑戦して、学ぶ必要性があるものを増やしていくということが大事なのかなと感じました。

終わりに

まだまだ駆け出しですが、1ヶ月の研修を振り返ってみました。
道は長いですが、今後もマイペースにやっていけたらと思っています。
今月はCouseraのMachine Learningをやり、終了後GCP関連の講座に入っていく予定です。