1. 序論
背景
2008年頃からブームが始まり、2012年にはハーバード・ビジネス・レビュー誌に「データサイエンティストは21世紀で最もセクシーな仕事 (Data Scientist: The Sexiest Job of the 21st Century)」とする記事が掲載されたことで世間の注目を浴びたデータサイエンティスト(以下 : DS)。最近では「ブーム終焉か」や「DSはなくなる?」のようなネガティブな記事も見られるようになってきている中で、改めて「結局DSって何する人でどういうスキルが必要なんだっけ」を考える必要があるのではないかと思ったのがこの記事を書くきっかけです。
目的
本記事では、「DSって結局どういう仕事をする人なのか」を考える、言い換えると「DSの定義を再構築」することを目的としています。
2. 本論
既存の定義
いきなりで恐縮ですが、「データサイエンティスト(以下 : DS)」ってよくわからなくないですか?? そもそもデータをサイエンスするっていうのがよくわからなかったりします。よくわからないときは定義に戻るのが一番なので、ここではデータサイエンティストの定義を見てみようと思います。
■ データサイエンティスト協会
昨今、センサー・通信機器の発達、ネットサービスの普及などにより、収集・蓄積が可能なデータの種類と量が急激に増大しております。そして、これらの膨大なデータ(ビッグデータ)から、ビジネスに活用する知見を引き出す中核人材として「データサイエンティスト」に注目が集まっております。
この流れを受けて、企業では当該人材の獲得・育成に力を入れようとしておりますが、実際には新しい職業である「データサイエンティスト」には明確な定義がなく、対応領域も広いことから、さまざまな課題も生まれています。
■ Albelt
データサイエンティストとは、一般的には「データ分析でビジネスの意思決定をサポートする人材」と定義されますが、ALBERTでは「ビジネス力・データサイエンス力・エンジニアリング力を用いることでビジネスの課題解決まで実現するプロフェッショナル」と定義しています。
■ SAS
データ・サイエンティストとは、さまざまな意思決定の局面において、データにもとづいて合理的な判断を行えるように意思決定者をサポートする職務またはそれを行う人のことです。統計解析やITのスキルに加えて、ビジネスや市場トレンドなど幅広い知識が求められます。
上では「データサイエンティスト 定義」の検索結果を3つ抜粋してみましたが、まとめると
明確な定義はないが、基本的には「データを使って意思決定者をサポートする」仕事であり、場合によっては課題解決までする人
がDSの定義ようです。
この定義でもなんとなくわかるような気がしますが、気になる部分もあります。
- どういう形で意思決定者をサポートするかが不明であること
- 定義のブレのために、サポートまでか解決までかで違うこと
この点をもう少し考えてみようと思います。
データサイエンスってなんだ
DSとは、名前の通り「サイエンティスト」です。それでは サイエンティスト、つまり科学者ってなんでしょうか。Wikipediaによると
■ 科学者
科学者(かがくしゃ、scientist)とは、科学を専門とする人・学者のことである。特に自然科学を研究する人をこう呼ぶ傾向がある。
とのことです。じゃあ科学ってなんでしょうか。同じくWikipediaによると、
■ 科学
科学(かがく、(羅: scientia、英: science、仏: science、独: Wissenschaft)という語は文脈に応じて多様な意味をもつが、おおむね以下のような意味で用いられている。
(広義)体系化された知識や経験の総称であり、自然科学、人文科学、社会科学の総称。
(狭義)科学的方法に基づく学術的な知識、学問。
(最狭義)自然科学。
とのことです。「科学的であるとはどういうことなのか」は、それ自体が難しい問題だったりするわけなので、ここではこれ以上深入りはせず、あくまでWikipediaの定義を借りて話を進めようと思います。
科学的方法・自然科学についても見てみましょう。
■ 科学的方法
科学的方法とは、断片化された散在している雑情報あるいは、「新たに実験や観測をする必要がある未解明な対象」に関連性、法則を見出し、立証するための体系的方法である。
「科学的」という言葉についての辞書的定義として、国語辞典(デジタル大辞泉)には以下のように記載されている。考え方や行動のしかたが、論理的、実証的で、系統立っているさま。
特に自然科学の方法に合っているさま。
■ 自然科学
自然科学(しぜんかがく、(英: natural science)とは
自然に属するもろもろの対象を取り扱い、その法則性を明らかにする学問。
自然における観測可能な対象やプロセスに関する科学あるいは知識のこと。例えば、生物学や物理学など。数学のような抽象的知識(抽象に関する知識)や、哲学のような理論的知識とは区別して用いられる
つまり、データサイエンスとは
データという対象に科学的方法を使って、関連性・法則を見出し、立証する学問
であり、それを行う人のことをデータサイエンティストと呼ぶのでしょう。
納得感
ここまで、DSは「サイエンティスト」であるということから、DSを再定義してみました。他の科学者とのアナロジーとして考えると、DSの定義は自然と上記のようになるのではないでしょうか。
さて、この定義に納得感はあるでしょうか。
正直、この定義にはあまり納得感がないのではないのかと感じます。少なくとも私は納得できません。。。なぜならデータというのは「何らかの現象」の結果としてあられるものであり、「データそのものを対象とする」というのがよくわからないからです。物理学者を例に取ってみましょう。
■ 物理学
物理学(ぶつりがく、(英: physics)は、自然科学の一分野である。自然界に見られる現象には、人間の恣意的な解釈に依らない普遍的な法則があると考え、自然界の現象とその性質を、物質とその間に働く相互作用によって理解すること(力学的理解)、および物質をより基本的な要素に還元して理解すること(原子論的理解)を目的とする。化学、生物学、地学などほかの自然科学に比べ数学との親和性が非常に強い。
古代ギリシアの自然学「φύσις」[1]にその源があり、英語の「physics」という言葉も、元々は自然についての一般的な知識の追求を意味しており、天体現象から生物現象までを含む幅広い概念だった。現在の物理現象のみを追求する「physics」として自然哲学から独立した意味を持つようになったのは、19世紀からである。
物理学の古典的な研究分野は、物体の運動、光と色彩、音響、電気と磁気、熱、波動、天体の諸現象(物理現象)である。
物理学の研究対象は「自然界に見られる現象」であり、それを普遍的な形で理解することが物理学者の仕事です。物理学は「実験」と「理論」に分かれており、それぞれが協力して研究を進めています。理論屋は「観測データ」等をインプットに、その背後にある現象を、基本的には数式を用いてモデル化し記述します。また、実験屋はこれまでに観測されたことのない現象の発見や再現性の評価、理論屋のモデルの正当性を評価するために、実験しデータを取得して解析しています。
何を言いたいかというと、データを扱うのは別にDSに限っているわけではない
ということです。科学者は基本的にみんなデータを扱って研究しています。
つまり、データサイエンティストという名称自体に無理があるのではないか
というのが私の結論になります。
適切な定義と名称
上で、DSとは語源から考えるとデータという対象に科学的方法を使って、関連性・法則を見出し、立証する学問をする人
であると書き、それが定義・名称として無理があるのではないかということを書きました。
じゃあ適切な定義・名称って何でしょうか。
それを考えるために、まずDSの活躍している場所を考えてみようと思います。DSは「企業」に勤務しており、対象としているデータは必ず「所属している企業(もしくは分析の依頼元の企業)」から生じているものだと思います。そう考えるとデータサイエンティストの定義が見えてくるのではないでしょうか。
つまり、DSとは、「(各)企業を対象に、そこに属するもろもろの現象を取り扱い、その法則性を明らかにする人
」という定義が成り立つのではないでしょうか。その場合、適切な名称は「(各)企業科学者」になります。なんかかっこ悪いですね。。。
ちなみに、なぜ「(各)」と書いてるかというと、企業一般論を扱うわけではないということを強調するためです。企業のデータを一般的に分析するのは社会科学に属するのではないかと思われます。
DSは科学者
DSというのは「(各)企業科学者」と書きました。「科学者」です。この点は非常に重要だと思います。科学者は工学者、つまりエンジニアとは異なります。「科学」と「工学」の違いはいろいろなところで書かれていますが、ここでは堀浩一氏のHPから引用します。
(この例では「理学」と「工学」の違いですが)
工学と理学の最大の違いは、学問のめざすところの究極の目標の違いにあります。
ややおおげさな言い方になるかもしれませんが、工学の目標は人類の幸福、理学の目標は真理の探求です
つまり、DSがサイエンティストであるならば、「真理の探求」が目標であり、各企業のよくわからない事象を発見して、その事象の裏にある法則性を明らかにするのが仕事
になるのではないかと考えます。それを行うために実験をしたり統計学や機械学習といった各種手法を使います。これは他の科学の分野と何も変わらず、あくまで対象が自然なのか人文なのか社会なのか、それとも「(各)企業」なのかという違いしか無いはずです。手法ありきではなく、あくまでも「事象をもっともらしく説明するために、必要な手法を使う」というのが科学者であるDSのスタンスではないのかと考えます。
DSがサイエンティストである以上、DSが出すアウトプットは「ある観測された事象」と「その事象の背景の仮説」であるはずです。機械学習の「学習済みモデル」では決して無いはずだと考えます。
疑問の答え
DSの定義を、明確な定義はないが、基本的には「データを使って意思決定者をサポートする」仕事であり、場合によっては課題解決までする人
としたとき、以下の2つがよくわからないと書きました。ここまで来るとこれらに答えられると思います。
- どういう形で意思決定者をサポートするかが不明であること
- 定義のブレのために、サポートまでか解決までかで違うこと
1について、サポートは「その現象が起こる仕組み」を説明することです。その説明を通じて意思決定者を支援します。
2について、サポートまでがDSの仕事だと考えます。より正確に言うならば、DSができるのはあくまでも「事象とその理由の説明」であり、それが結果的に意思決定者をサポートすることになります。解決、つまりどうするのが良いかを示し実行するのは本来的には科学者の仕事では無いはずです。
「どうすればいいのかを示さないのは無責任だ」と言われるかもしれませんが、むしろ「どうすればいいかを示すほうが科学者として無責任」なのではないかと感じます。なぜなら意思決定は主観的な行動であり、決して科学的ではないからです。可能性の話しかできません。
3. 結論
データサイエンティスト(DS)は「サイエンティスト」であるという前提のもとで、他の分野のサイエンティストとの類似性・独自性を考えると
- 名称 : (各) 企業研究者
- 定義 : 各企業のよくわからない事象を発見して、その事象の裏にある法則性を明らかにする
が適切ではないのかという形で話をしてきました。
この定義でDSを考えてみると、これは機械学習プロセスが自動化されたくらいで無くなる仕事ではない
と感じられるのではないでしょうか。むしろ自動化してくれるおかげでより多くの現象を効率的に調べられるようになるため、AutoMLはDSにとってはとても便利なツールなのではないでしょうか。
DSの価値は、統計学・機械学習・実験...ができることではなく、各企業が持つよくわからない現象を科学的に明らかにするところにある
と私は感じます。雇う側も働く側もそこの認識がずれていなければ、みんな満足できるのではないかなーと思っています。
(補足) DSは科学者か?
最後に少しだけ付け加えさせてください。DSは「(各)科学研究者」であるとここまで書いてきましたが、DSを科学者と呼んでいいのかと言うのは議論の余地があるとおもいます。
私は条件付きでOK
だと考えます。
その条件とは、DSが客観的に正しいと認められている方法で出した結果を他者が評価できる仕組みがあること
です。
何かを分析するとき、主観性を完全に排除することはできません。分析をしようとする限り主観性は入り込みます。そして、ある事象を理解(解釈)する方法も人の数だけあります。何が良いかと言うのは本質的にわかりません。
ある分野の大多数の人が「納得」できる考え・方法が「妥当である」と考える手続きを「科学的」であるとするならば、DSの場合では「(各)企業研究」つまり、それぞれの企業の中の事象を分析する人たちが一つのコミュニティとなって、その中でコンセンサスを得るというのが科学的なのだと思います。そうすると、企業にDSが一人というのは健全ではないでしょう。その結果を評価できるスキルを持っている人がいなければ、結局DSが出した結果が妥当なのか評価できません。DSを科学者として扱うためにも、そういった各企業がそういった土壌をつくることが必要になっていくのではないでしょうか。