経緯
データサイエンティストなる仕事に就いて2年目に入ったが、データサイエンティストを名乗るにはあまりにお粗末な技量しかない。
基礎統計や、ドキュメント見ながら機械学習を構築するくらいしかできない。これならサーバーサイドエンジニアのままでもできた気がする...🤔
さすがにまずいのでは?と思ったので「これをやったらそれなりの実力がつくだろう」という教材とかを挙げてみる。
現状
ただの自己分析なので飛ばしてください。
これで業務出来てるのか不安になるが、今のところできてしまっている。
もしかしたら経験歴が浅い同じ状況の人がいるかもしれない...いるか...?
所持資格
- 基本情報技術者試験
- 応用情報技術者試験を2か月後に受験予定
- 普通自動車免許(全然関係ないが仕事しながら取得するのは大変だったので書いておきたい)
こうしてみると、社会人4年目を目前にして資格欄がまあまあな虚無
できること
- webアプリ構築(要件定義,設計からひととおり)
- pandas, numpyなどのライブラリを使った基礎統計
- データの可視化
- 機械学習の実装はQiitaとかの記事やGithubのコミュニティノートからコピペしている
データ分析にちょっと手を出したレベルのエンジニアから進歩を感じない。
これはまずい。
やりたいこと
- 統計や機械学習の基本的な理論部分の強化
- 機械学習まわりの実装経験を増やす
- 各データ形式(テキスト、画像...etc)、分析の手法を実践しつつ、それぞれの短所長所を直感的に知っておきたい
- サーバーサイドの知識も維持したい
教材
場数を踏む & 腕試し
腕試しに使ったコードはgithubに上げておくとペース管理やポートフォリオにも使える
kaggle
コンペ形式で企業が課題とデータを提供している。
データセットが提供されているうえに、過去の挑戦者のコードも見れるので自分のコードと比較して、改良の手法を知ることもできる。
コンペはハードルが高そうだが、初心者用のタスクもあるので親切。
SIGNATE
kaggleと同じくコンペ方式の課題が掲載されている。
コンペ方式ではない練習問題もあるので、ここから手を出してみるといいかもしれない。
paiza スキルチェック
機械学習ではないが、アルゴリズムの練習になる。
スムーズにコードをかけると仕事が楽になる。
読み物
AIcia Solid
モデルや機械学習の手法について解説してくれている。
本当にわかりやすい。
数学の知識がなくてもわかるように解説してくれるし、数学の知識がある人向けのより深い解説もある。
LLM 大規模言語モデル講座 2023コンテンツ
いきなりこれを読んで理解するのは厳しそうだが、ここに出てくる単語を調べたりしたら知識がつくはず。
これを完全に理解できたら2023年時点でのLLM周辺はおおむね理解したことになりそう。
取得したい資格
資格は直接的に技量が向上するわけではないが、体系的な知識の取得ができて、履歴書がにぎやかになる。
応用情報技術者試験
エンジニア系の仕事を続けるなら取得しておきたい。
データベーススペシャリスト試験
高度情報処理技術者試験のうち、データサイエンティストにとって一番良さそう。
応用情報技術者試験を取得すれば2年間は午前I試験の免除がされるらしい。
統計検定(2級~)
統計周りの基礎知識をつけるために受験したい。
社会人として使えるのは2級からで、準1級以上はより重宝される。