2年ほどデータサイエンティストとして働いたので、思ったことを徒然と。
要点としては下記2点です。
・データサイエンティストの仕事は、まずデータチェックから
・無理じゃないか、という状況から妥当な仮定を重ねて、結果を出す
#データサイエンティストは地道な仕事
たまに、「データサイエンティストはセクシーな仕事」そんな言葉が数年前に聞かれ、今でもデータサイエンティストを目指す学生の中には、「知的でスマートにバリューを出す仕事」のようなイメージをお持ちの方もいますが、実態はものすごく地味ですし、根気がいる仕事です。
どんな仕事でもそうですが、特に知的労働なんてものは根性の仕事です。コンサルも、投資銀行も、実態は根性論のような働き方だったりします笑(もちろん根性だけじゃできない仕事ですが、根性がないとできない仕事ということです。)
#データサイエンティストの根性とは。。。
データチェック、ここが特に根性がないときついフェーズです。。
実際の仕事では教科書や参考書のようにきれいなデータなんてまずないです。
欠損値があったり、月次のデータと週次のデータが混在していたり、そもそもPDFの表しかなかったり、、挙げればきりがないですが、「顧客がデータを管理できていない」という状況はザラです。まずそれはPythonなりTableauなり、日々使うツールで読み取れる形にする必要があります。
また、データも様々な粒度が混在していたり、同じデータでも期間で定義が違ったり。。(例えば売上データなら、2017年までは月次の都道府県別のデータで、2018年からは週次の市区町村別とか)
こういったデータを受領し、まず「どのようなデータなのかチェックし、顧客に疑問点を問い合わせる」この仕事から始まることがザラです。
#分析できなくね・・・
その結果、顧客が求めてる結果を「統計的に確からしく出すのは無理じゃないか?」ということもザラにあります。しかし、そこで「できません」なんて言っていたら仕事はありませんし、仕事である以上競合他社との戦いもある以上、何かしら仮定をおいて分析する必要があります。
「どれだけ顧客を納得させられる仮定を起き、分析条件を整えるか」この力がデータサイエンティストに求められる力の一つだと思います。データサイエンティスト協会で「ビジネス力」「データエンジニア力」「データサイエンス力」をデータサイエンティストに求められるスキルとして定義していますが(http://www.datascientist.or.jp/files/news/2014-12-10.pdf )、この妥当な仮定には業務上必要なアウトプットを出すために妥当な仮定をおける「ビジネス力」と、分析上妥当な仮定を置ける「データサイエンス力」が主に必要になってきます。
#いざ分析へ
データサイエンティストらしい分析フェーズは業務に占める割合は小さかったりします。上記のような分析条件の整理が終わってしまえば、あとはコードを書いて回すだけだったりしますので。。