データサイエンティストになりたい自分として、世の中でどのような資質が求められているのかというのが非常に気になる次第です。
たまたまMediumを見ていて役立つ記事を見つけたので、備忘のため記録しておきます。
元記事はこちら。
記事の概要
これはデータエンジニアの採用ではなく、データサイエンスの役職に就く人間を採用する時のポイントをまとめたもの。
機械学習の基礎から実行可能な戦略の構築、実際の問題解決まで出来る人間を見極めるためのポイント。
質問①:データサイエンスにとっての正規分布の重要性は何か?
・データサイエンスで最も基礎的な部分の理解を試す質問
・中心極限定理が絡められているとより良い。
・ただ、数学的な話は細かい話は置いておいて、正規分布は平均、中央値、最頻値が全て同一であり、平均と分散のみで分布が決定されること、その線形回帰における重要性などに言及されていれば尚良い。
・線形回帰における重要性とは、検定における誤差の分布の仮定のことかと思われる。
質問②:データサイエンスに対する情熱を教えて下さい。例えばmeetupやKaggleへの参加、世の中のためのデータ活用方法の探索、カンファレンスでのスピーチ、本や記事の執筆、等。
・データサイエンスや数学への情熱を確認するための質問。
質問③:最近自分が関わったデータサイエンスプロジェクトで味わった挫折と、それをどうやって克服したか詳しく説明して下さい。
・データサイエンスプロジェクトは一筋縄でいくものではないので、困難にどうやって立ち向かったのか知ることで、知識と経験が十分なものかを確認するためのもの。
質問④:過去自分が関わったプロジェクトを思い出して下さい。もしデータソースの一つを変更できたとすると、どのようにソリューションを変更しますか?
・レベルの低いデータサイエンティストは与えられたデータや予測手法をそのまま受け入れそれ以上考えないが、能力が高ければデータセットの選択、特徴量エンジニアリングや統計的分析を行う。
質問⑤:調査によると23億人が過去20年に洪水の被害を受けている。あなたならどうやって今後100~500年で発生する洪水を予測しますか?
・損失を最小限にするためにはどこにダムをつくるべきか、の予測。
・問題の定義、データ収集、データラングリング(データ(Data)を飼いならす(Wrangling))、EDA、特徴量エンジニアリング、モデリング、データ解釈など、データサイエンティストとしての業務への習熟度合いを図る質問。
所感
・やはり大事なのは、主体的に問題を特定し、具体的に課題解決に導く能力だと感じた。
・前提として、現職務でもデータサイエンスに関する業務をしていることがあるようだ。
・自分自身が今の職務でこのような作業に従事できていないので、プライベートででも何とかして実績を残したいと思った。