21世紀最もセクシーな職業と言われるデータサイエンティストを目指している人は少なくないのではないでしょうか?また、データサイエンティストになりたいけど、何から手を付ければいいのかわからない人も少なくないのではないでしょうか?
#はじめに
この記事では、データサイエンス勉強会(テーマ:データサイエンスとは?)を行った際に感じたことを書いています。この勉強会では「実際にデータ分析を行っている人」から「興味があるので参加しました」という人まで参加し、議論しました。(ちなみに、私は勉強を始めて3ヶ月です)
#対象読者
- データサイエンスに興味がある人
- データサイエンティストになりたい人
#データサイエンスとは?
「データサイエンスとは、何ですか?」という問いに、明確に答えられる人はどのくらいいるでしょうか?Wikipediaにデータサイエンスのページはありますが、明確な定義と納得するのは難しいと思います。
ただ、データサイエンスに必要とされるスキルなら答えられるという人はいるでしょう。データサイエンスのスキルセットは実際に定義されています。
以下のスキルセットは見たことがある人もいるのではないでしょうか?
画像元は こちら
上図を見ればわかる通り、データサイエンスは
- ハッキングスキル
- 数学、統計学
- ビジネスや専門分野のスキル
の3分野が交わる領域を表し、3分野のスキルが必要とされることは理解できます。
画像元はこちら
こちらはデータサイエンティスト協会が定義しているスキルセットです。こちらは分析プロジェクトを行うのに必要となる役割ごとに求められるスキルと考えられます。
データサイエンスのスキルを答えられても、定義を答えられる人はいないでしょう。現在、データサイエンスの定義について議論はされているようです。統計学や機械学習を表現として言い換えただけではないか?のような議論がされているとか…
データサイエンスの定義は不要という考えもあるようです。データサイエンスの定義が明確でなくても、仕事はあるからだとか。興味がある人はこの本を読んでみてはいかかでしょうか。
#データサイエンティストとは?
定義が曖昧なデータサイエンスを行うデータサイエンティストとは一体何者なんでしょうか?データサイエンスのスキルセットを備えた人でしょうか?データ分析に実際に携わっている人でしょうか?
実は、データサイエンティストと名乗れば誰でもデータサイエンティストになれるのです。現在、データサイエンティストは医師や弁護士のような資格が必要なわけではありません。コンサルタントのように名乗ればデータサイエンティストになれるのです。(※データサイエンティスト、コンサルタントを悪く言っているわけではありません)
とはいえ、多くの人が思い浮かべるデータサイエンティストはいわゆるセクシーなデータサイエンティストではないでしょうか?
**データから特徴検出して、経営課題をサクッと解決!それがデータサイエンティスト!**のようなイメージではないでしょうか?
現実に、データサイエンティストに必要なスキルを全て持つセクシーなデータサイエンティストはほんの一握り存在するようですが、ほとんどのデータサイエンティストは輝かしいイメージのデータサイエンティストではないようです。
なので、ほとんどのケースでデータサイエンティスト達は役割を分担し、チームとして、データサイエンスのスキルを補うことで、仕事に取り組んでいるようです。
#データサイエンティストの仕事とは?
データサイエンティストはどのような仕事をしているのでしょうか?
データサイエンティストの仕事は自問自答の繰り返し
データサイエンティストは最適解を求めるために、仮説を立て、分析、結果を検証する。検証結果が導き出すべき答えでなければ、また仮説を立て、分析、検証を繰り返す。最適解を導き出すまでこれを繰り返し行います。この仕事は泥臭く、決してセクシーな仕事とは言えないでしょう。
また、データサイエンティストはデータを分析するだけでなく、分析を依頼される顧客にヒアリングをしたり、分析結果から導き出した次に行うべきアクションの提案、データが不足している場合はその対応をするなど、決して、与えられたデータを分析して答えを出すだけではないのです。
#データサイエンティストを目指すなら、日頃から最適解を想像する
今回の勉強会で私が感じたデータサイエンティストに最も求められるものは、
最適解を思い描く想像力!
です。データサイエンスの勉強を始めて3ヶ月程ですが、これまでを振り返ると分析技術ばかり追いかけていたなと感じます。実際の案件では、「ビッグデータで○○したい」、「人員配置を最適化したい」のようなリクエストがあるようです。この話を聞いたとき、どう分析するかはぼんやりとイメージできても、最適解が何かを想像できないことに気付きました。そして、最適解は常に考える。生活の中で、何事にも自分ならどうするか、どうすれば最適かを考え続けることが必要ではないかと感じました。
統計学や機械学習の知識、スキルも勿論必要となるが、あくまで、最適解を求める手段であることを忘れてはいけない。これは私にとって反省すべきことです。手段が目的化していることがあるのです。例えば、上記の「人員配置の最適化」を依頼されたとしたら、「人員配置の最適化」を検討していく中で、「人員配置の最適化する方法」ばかりを検討し続けてしまうのです。
要するに、解決すべき問題を見失っているのです。恥ずかしいことによくやってしまいます。もし、同じようなことをよく指摘されるならこの本をおすすめします。
そして、もう一つ注意すべきは求めた最適解は現状の最適解であることを忘れてはいけないことです。技術革新により飛躍的に計算力が向上した現代では、機械学習やベイズ統計等これまでの計算力では処理しきれなかった理論、アルゴリズムが適応可能になっています。一方、ビッグデータと言われるように情報の生産量も飛躍的に増加し情報処理量が情報生産量に追い付かない状態となっています。即ち、現在、導き出されている最適解は情報処理可能な範囲で導き出される最適解であり、情報処理能力が向上すれば、現在の最適解は最適ではなくなります。そして、データサイエンティストはまた、最適解を導くために、仮説→分析→検証のサイクルを繰り返さないといけないのです。
そう、データサイエンティストは永遠の課題に取り組み続けなければならないのです。
#その最適解は誰にとって最適となるのか?
思いついた最適解は誰にとっての最適解なのでしょうか?これは意外と重要です。自分にとってだけの最適解では意味がありません。ビジネス課題を解決する最適解が求められる以上、誰かのためになる最適解でないといけないのです。
ビジネス課題を解決する最適解、誰かの役に立つ最適解がデザインできたら、本当に最適解なのか検証しましょう。ここで、分析技術が必要となりますが、注意すべきは解決すべき問題を見失ってはいけないことです。
デザインした最適解が本当に最適解だと検証できたら、導き出した最適解を伝えられる、選択すべきアクションを実行させられるコミュニケーション力が必要になります。導き出した最適解を採用してもらいましょう。採用されて真の最適解になるのです。
採用されるまで、最適解をデザインし続ける。採用されれば、次の最適解をデザインする。これがデータサイエンティストの醍醐味であると感じた勉強会でした。
#さいごに
データサイエンス勉強会(テーマ:データサイエンスとは?)で議論された内容を元に感じたことを書きました。この記事がデータサイエンスに興味がある人、データサイエンティストを目指している人の参考に少しでもなれば幸いです。
最後まで、お読みいただきありがとうございました。よろしければ、いいねをお願いします。
※この記事で書いていることは、あくまでも自分が感じたことを発しているにすぎません。