1年前の記事はこちら
https://qiita.com/kotanomura1991/items/dea60e6d1bc12a04def3
#はじめに
2年前に化学系研究者がデータサイエンティストを目指しゼロから勉強を始める。その2年目の記録。この轍が誰かのロードマップになれば嬉しい。
#スタートからのスキルの違い
2年前はプログラミングは全くしたことがないし、統計学の知識もほぼゼロ。現在は統計学、Excel vba、pythonが使えるようになった。pythonはデータ分析、機械学習までは使えるようになった。
#仕事上での変化は?
1年前にも書いたがvbaを取得したのがかなり大きかった。データを測定するたびにグラフを手作業で書いていたのが自動化され業務時間がかなり圧縮。データ整理の時間が減り頭を使うことに時間が割けるようになった。
統計学の知識がついたことによりA/Bテストだけでなくデータ全体を用いた考察が可能になった。バラツキの大きい実験ではサンプル数を増やして議論することで解決ができるんですよ。
pythonが使えるようになったことで、データ分析の幅が広がった。グラフもseabornを使うだけで綺麗だし、相関分析のヒートマップなどもイケている。因果分析で解析もできるようになった。
#初めてのpython
ということで、ここからが勉強法だ。PythonのデビューはProgateだ。1ヶ月かからないくらいでやり切った。学ぶことがまだまだあるなんてこの時は思ってもなかった。
https://prog-8.com/
#Python初級・中級
Progateの後は半年くらいずっとPyQをやっていた。目安の勉強時間が出るのだが数百時間と書いていて、なかなか進まないなぁと思いながらひたすら信じてPyQを。中級に入ったあたりからやっとグラフを描けるようになり、データサイエンティスト感が出てきた。ここでは機械学習をやらずその手前のデータ分析・統計学までを学んだ。
https://pyq.jp/
自分はPyQで勉強したが本が良い人はこれらが同じ内容らしい。
#機械学習との出会い
さて、名前だけ知っている機械学習までやっと辿り着いた。PyQの道のりが長かったので非常に楽しみだった。まずは本を読んでざっと学ぶ。
そして、あれ?と、研究開発というのは説明変数を探すことだ、目的変数に対する説明変数を探すことでさらにいいものが作れる。それを実験で行なっている。
一方で機械学習の中で出てくる内容は、説明変数から目的変数を予測することだ。あれ?研究には使えない?と、思い当時は戸惑った。しかし、目的変数から説明変数を予測すれば良いし大した問題ではないことがわかった。
戸惑いの中で読んで面白かったのがこちらの本。
日立製作所の現場ではどのようにデータ分析が使われているかがわかる本だ。この中で因果探索という言葉に出会った。
#因果探索・因果推論
相関関係でなく、因果関係を出せる手法。ベイジアンネットワークで、可視化など非常に見た目がわかりやすく、即仕事で使えた。ここまでくるとちょっと調べればすぐに仕事で使えるようになってきた。因果については下記本が簡単でわかりやすかった。数学的な理解はまた来年にでも行おうと思う。
#改めて機械学習
そして現在はこちらの本を使って機械学習の勉強をしている。2年間経ってゼロから始めてデータサイエンティスト感が少しずつ出てきたつもりだ。
#今後の予定
思いつくままにやるタイプなので、多分違うことをするかと思うが、機械学習が終わったらディープラーニング、因果探索・推論へと勉強を進めようと考えている。あと、ベイズ統計学も学んでみたい。
さらにはコロナ禍で資格試験が中々受けられなかったので(勉強だけして中止になったものも多い)受けていきたい。
具体的には下記あたりから取得したい。
・データサイエンティスト検定
・ディープラーニングG検定
・基本情報技術者試験
・統計検定2級
基本的には資格の意味はないと思っているのだが、自分みたいな専門外のパターンでは重要と思っている。
ただただ知識があると言っても、周りは誰もプログラミングなどの知識がないため、証拠が資格という形であるだけでかなり説得力が出る。勉強が一通り落ち着いてきたら取りたい。
以上、が2年目の勉強だ。今後はこちらにも定期的に記事を上げていけたらいいなと思う。化学系でのポジションを高めていきたい。