いま私、2つの立ち位置でデータサイエンスのポジションに携わっています。
-
機械学習エンジニアとしてのコーディング業務
- 既存システムに対して、Pythonで開発したモジュールを組み込む。例えば、予測するコードを書いてシステムに適応したりする。
-
データアナリストとしての分析業務
- 上記既存システムで蓄積されるデータを、何かしらの課題解決のために分析する。
この業務は約2年になります。
もともと大学時代は統計やデータマイニングを専攻。Rでプログラミングなども行っていましたが、SPSSやS-PLUSなど、One Pushで分析してくれる神々しいツールが多数存在していた。(今もあるけど。)
その後、社会人になってからはアナリスト業務(週次や月次で、クライアント企業・ブランド・製品のデータを分析してPPTでレポート書く!)を行っていました。
実装などエンジニアリング的な要素は、ほぼなし。
2年前よりアサインされたプロジェクトで、Pythonを標準言語とするデータ分析系の開発業務に携わるようになり、急遽開発業務もあるエンジニアリングの世界に飛び込んできた感じです。
とにかくデータサイエンス系の知識を再吸収・再勉強しようと、オンライン・オフライン問わず様々な学習方法に手を出してみました。
色々と長所・短所が見えてきた部分がありますので、まとめておきます。
勉強してきたいろいろ
オンライン
-
データコンペ
-
kaggle
- 世界と戦うデータ分析コンペティション
- KaggleはGoogleに買収された
- 上位に入賞するとお金をもらえる
-
Deep Analysis(オプト)
- 日本初のデータ分析コンペティション
- Powered by オプト
- 上位に入賞するとお金をもらえる
-
kaggle
-
-
Machine Learning
- Stanford Universityのコース。
- 初回に5,000円くらいかかったかも。(覚えていない)
- データサイエンス系の基本が把握できる
- 非常に有名 & データサイエンティスト協会が推奨するコースの1つ。
- コースが終了すると修了証が発行される。
-
Applied Data Science with Python
- Univrsity of Michiganのコース
- 1カ月5,000円くらい。この期間複数ある講義をいくつ受けてもよい。
- 自然言語処理系の勉強のため、中でも以下2つのコースを受講した
-
Applied Text Mining in Python
- 自然言語処理でのイロハ
-
Applied Social Network Analysis in Python
- ソーシャルネットワーク分析・可視化
-
Applied Text Mining in Python
-
Deep Learning Specialization
- Stanford Universityの有名な先生(deeplearning.ai)
- 深層学習系の勉強
-
Machine Learning
-
東京大学グローバルインテリジェンス寄付講座:データサイエンス
-
人工知能の書籍等でおなじみ松尾豊先生の研究室が公開しているオンライン講座
-
2017年からスタートし、執筆時点では第2回が進行。1年に2回ほど生徒募集される。社会人が受講可能
-
応募後選抜があり、人数が絞られる。
-
PythonをベースにJupyterNotebook上で講義を進めていく。
-
最後に毎週課題を提出
-
約15週くらいかかる。
-
-
Twitterでの情報収集
- データサイエンス系のクラスタが存在するので、そこの人たちのTweetウォッチを習慣とした
オフライン
-
イベント参加
- データサイエンティスト協会シンポジウム
- 今携わっている●●業界の学会参加(●●には小売とかセキュリティとか、そういうワードが入ります。)
-
セミナーやライトニングトーク参加
- 大・中規模
- フリーランスがやっているやつ
-
技術書の勉強
- 本たくさん
- 『ゼロから作るDeep Learning』等 オライリー系
- 本たくさん
-
資格
- 統計検定準一級
- 基本情報技術者試験
- 応用情報技術者試験 とか
以下は、
- それぞれの5段階評価(5が一番良い)
- メリット、デメリット
を記載ました。
評価 | メリット/デメリット | ||
---|---|---|---|
コンペ | kaggle | 4 | 【メリット】 * 多くのユーザがKernel(基礎集計やコード)を公開してくれているので、自分が知らなかったことが勉強できる。 * 世界トップの実力を体感できる。 * 良い結果が出ると履歴書などで自慢できる 【デメリット】 英語なので、理解不足な時あり |
Deep Analysis(オプト) | 2 | 【メリット】 * 日本語なのでわかりやす。 * 海外に出せないような、国・自治体のデータがある。 * kaggleと比較して参加人数少ないので賞金をGETしやすい。 【デメリット】 * kaggleと比較してコンペ知名度は格段に低い |
|
cousera | Machine Learning | 3 | 【メリット】 * 説明がとても分かりやすい。 * 網羅的に学習できる。 * 途中で課題を挟むので、理論の理解と実装での理解を両方できる。 * 英語だが、翻訳がついている 【デメリット】 * (業務では使わない)MATLABでの実装による課題提出が必要。 * 英語。 * 動画での講義のため、気になったところをもう一度見たくても、なかなか探せない。 * 1か月くらい無料だった!?(気がする) |
Applied Data Science with Python | 4 | 【メリット】 * JupyterNotebookでの課題が非常に難しいが、身に付く。 【デメリット】 * 全て英語。翻訳もなし。 * 動画での講義のため、気になったところをもう一度見たくても、なかなか探せない。 * 1ヵ月5,000円くらいかかった。 * 自然言語処理は、英語に関する処理がベースなので、日本語の形態素解析などに関する説明はない。 |
|
東京大学グローバルインテリジェンス寄付講座:データサイエンス | 5 | 【メリット】 * 説明は少ないが、Jupyter Notebook上での進行でかなり理解を深められる。 * 日本語で無料 * 修了時に、他の受講者とのネットワーキングがある 【デメリット】 * 毎週課題提出が必要。 * おそらく学生が少ない人数で運営してくれているので、システムダウンや教科書の誤りがたまにある。 * 全く統計とかかじってない人には少しつらいかもしれない。 * 応募後に選抜があるので、受講できるかはわからない。 |
|
Twitterでの情報収集 | 4 | 【メリット】 * リアルタイムに最新の情報が手に入る。 * 日課にすべし |
|
イベント参加 | データサイエンティスト協会シンポジウム | 3 | 【メリット】 * 「鷹の目」で広く様々な業界での活用を把握できる。 * 他業界の知見が適用できたりしないかという視点で見ると面白い 【デメリット】 * 基本的には成功事例のみ。 * プロモーションが多い。 |
今携わっている●●業界の学会参加 (●●には小売とかセキュリティとか、そういうワードが入ります。 | 4 | 【メリット】 * 「蟻の目」で、その業界での課題等を深く把握できる。 * 専門家からの厳しい突込みなどが、見ている方も勉強になる。 【デメリット】 * まったく無関係なお話もあるので、情報の取捨選択は必要。 * 学部生の発表などは、時期によっては中間発表レベルのものがあったりする。 * アカデミックすぎることがあるので注意。 |
|
セミナー | いろいろ | 2 | 【メリット】 * 業界の有識者が発表するセミナーやライトニングトークは面白いし勉強になる。 【デメリット】 * 無料のはそれなりのクオリティであると思って行った方が気が楽。 * フリーランスの人が主催している小規模のものなどは、当たり外れが激しい。フリーランスの方自身がネットワーキング目的でやっている場合があるので注意する。 |
資格 | 3 | 【メリット】 * 理解のレベルをコミットできる。 * 履歴書に書ける 【デメリット】 * 資格に合格することが目的化しないように注意。 |
※なお、私は上記のどこの団体の回し者でもありません。
今後やってみたい学習
-
DL4US
- 松尾先生が始めたDeep Learning系の講座
- まだ第一回が始まったばかり。無料。
- 年に2回くらい募集すると予想も2000人近くの応募があったらしい。門は狭い⁉
- データ基盤系の勉強。
- 筋肉の大事さを学ぶ。
-
Aidemy- さらっと見たが、これまで学んだことで網羅されているので優先度低い
以上です。