「データサイエンティスト」と呼ばれる類の仕事をして十年以上になる。最近になって色々と思うところを言葉にしたくなってきたので、この仕事について思うところをこれからしばらく連作のエッセイのような形で書いていきたい。
この記事のタイトルには「(1)」とつけてみたものの、最終的に何本の記事になるのかは不確定である。ひとしきり書いてから、論旨がはっきりし説得力を増すように、改めてまとめ直すことになるかもしれない。まあとりあえず書いて、公開していこう。
自分にとってデータサイエンティストは、正直に言えばやろうと思って始めた仕事ではなかった。たまたま新卒入社した会社でデータ分析のチームに配属され(それはこちらの希望していたこととは違った)、気がつけばずっと続けることになっている。
そういったところに端を発する、どこか醒めた気持ちがあるからだろうか? この仕事に対する人々の期待感はいつも過剰に感じるし、プロジェクトも人もどこか歪な状況に置かれることが多いように感じる。
いまではデータサイエンティストと呼ばれる人々は様々な企業においてそれなりの待遇で雇われている。しかし正直なところ、本当にデータサイエンスで、データサイエンスでなければありえないような規模や精度で大きく何かを改善した、出来ている、という事例は、実はそれほど多くもないのではないか……そんな気もしている。
自分はそうしたギャップに悩み続けてきて、そうしたギャップが生まれる原因と対処法が自分なりに見えてきた。それについて書いていくことで、整理してより明確にしていきたい。そしてまた、それを共有することで、データサイエンスの仕事をしている人にも、そういった人々に何か仕事をしてもらう側の人にも、より良い在り方について考えてもらうきっかけになれば良いなと思う。
データサイエンスという言葉
まずはデータサイエンスという言葉について書こうと思う。はっきり言ってこの言葉が私はあまり好きでない。だってサイエンスって基本的にはデータに基づくものではなかろうか……馬から落馬というようなものでは……? まあ、この呼称で通りが良くなってしまった以上、異を唱えても詮無いことではある。
データサイエンス・データサイエンティストというものについて論じていく前に、私なりに定義をしておく。これからしばらく書いていく文章において、「データサイエンス」という言葉を以下のような意味で使っていく。
データサイエンスとは データから演繹的な推測を行おうとする(、そしてそれによってビジネスに貢献する)活動 である。
この定義が常に通用するべきだとは思わないが、「データサイエンス」という言葉が使われる状況について、ある程度芯を捉えられているのではないかと思っている。
例えば、小売業の販売データのログがあり、それを分析しているとしよう。
集計を行えば、商品ごとに、どの店舗で、何年何月に、いくら売れたか、といったことがわかる。
これを出すことがデータサイエンスだろうか? そう言い切られてしまうと、やはりちょっと物足りなさを感じるのではなかろうか。
やはりデータサイエンスと呼ばれることをやるのであれば、来年の4月にどれだけ売れるのか、誰に営業すれば業績を伸ばせるのか、売上が不振である店舗にどんな商品を入荷すれば改善できそうなのか、そんな問いに答えて欲しい、そういった感覚を持つ人が多いのではないか。それはつまりどうなるかわからない未知の事象についての手がかりが過去のデータから欲しいということであり、「データからはこういう法則が考えられる」という帰納的なものよりも、「法則に基けばこうなるはずだ」という演繹的な方向での応用可能性に重点がある。
データサイエンスが演繹的な活動であるということが、多くの人がビジネスにおける可能性を感じる理由であり、そして同時にビジネス現場での実践に際して直面する多くの困難の源でもある。
データサイエンスが演繹的であればこそ、新たなアクションの判断を手助けすることができる。
データサイエンスが演繹的であればこそ、単なるデータの集計・可視化よりも一段と注意深い準備と検証が必要になる。
データサイエンスは演繹的に使われるにも関わらず、データから何かを学びを得るというプロセスは帰納的である。そのことに対する無理解から多くの歪みは生まれる。
私はそう考えている。