データ分析
AI
データサイエンス

Googleの考えるデータサイエンス・プロジェクトに必要な10の役割

image.png
最近、GoogleのChief Decision Scientistという役職につくCassie Kozyrkovが「Top 10 roles for your data science team (データサイエンス・チームに必要な10の役割)」という記事を出していました。

先日別の記事、「Airbnbで必要とされる3つのデータサイエンスの仕事のタイプ」の方でAirbnbではデータサイエンスの仕事を最近3つにわけてチームを作りそれに基づいて採用しているという話をしましたが、Airbnbの場合は実際にデータサイエンスをビジネスの現場で行っているチームによる話なので説得感があるのに対して、こちらは、GoogleのクラウドベースのAI・機械学習の製品やソリューションを売る人による記事ですので少し注意が必要です。(そちらは私個人のコメントを付け加えています。)

しかし、それでも、データサイエンス、特にアナリティクスの人材の獲得、育成、さらにはチームの編成などを考えるときにはいい参考になると思います。要はこういったタイプの仕事が必要になるのだなとイメージできればいいのではないでしょうか。

Airbnbがデータサイエンスを必要とするビジネスサイドのニーズに対応しやすくするためのグループ分けをしているのに対して、こちらのGoogleの記事はデータサイエンスを行う際の技術的なステップによるカテゴリー分けだと考えればわかりやすいかもしれません。

以下、要約


0. データエンジニア

こちらはデータの出入りに責任を持つ人達で、データの量が多くなるにしたがい、より一層専門性が要求される技術的な仕事でもあります。データサイエンスに関わる人たちがまずは無事にデータにアクセスできるようにしなければいけません。

1. 意志決定者

データサイエンスを採用する前にそもそもデータをもとに意志決定を行うことができる人達がいなくては意味がありません。
この人たちは、どういった問題がデータで解決できるのかに理解があり、どう質問を構築するかが分かっていて、指標の作り方、統計的な仮説の検証の意味がわかっていて、さらにそこで下す決定がビジネスに与える影響を理解出来る人達です。

2. アナリスト

RやPythonなどのツールを使って現状認識のためのデータ分析を行っていくことが出来る人。この人たちは、因果関係を解明するための分析をすることは期待されていません。何が起きたのかをデータから理解することのみです。

3. エキスパート・アナリスト(分析の専門家)

この人たちは探索的なデータ分析を素早く行っていくことが出来る人達です。ここでのポイントはデータから様々なことを発見するためにいかに効率がいいかということで、スピードが最も重要です。そこで書かれるコードの品質などは問題にはなりません。

4. 統計の専門家

この人たちは、統計の手法を使って機械学習などのアルゴリズムから導き出された相関関係から、因果関係を推論したり、仮説を検証したりすることが出来る人達です。

5. 応用機械学習エンジニア

応用機械学習エンジニアはアルゴリズムがどう動くかを理解している必要はありません。それを使うことが仕事であって、それを作ることではないのです。作るのは研究者の仕事です。アルゴリズムに渡すためのデータを自由自在に加工できることが期待されます。


訳者注:
ここが、著者の仕事の目的と少し絡んでいるところです。彼女はGoogleの機械学習のクラウドソリューションを売ろうとしているので、こうした新しいタイプの職種を薦めているのかもしれません。

彼女のポジションとしては機械学習のアルゴリズムがどうなっているかはあまり気にしないで、とにかくデータを渡してそこから得られる結果をテストして、それを何回も繰り返していくうちに使い方が分かってくるというものです。

私は、こういったアルゴリズムを使う人は、中の難しい数式などは理解できていなくてもいいと思うのですが、ある程度の仕組みと、インプットデータに対する前提条件などを知っておくとことで、最終的に出てきた結果をどう解釈するか、どういうときにどのアルゴリズムを使うといいかなどを判断しやすくなると思います。

さらに、ここでは機械学習とありますが、実際にはいわゆる学習系のアルゴリズムの中にも機械学習系と統計系がありますが、この統計系では前提条件などが特に重要になってきます。さらにそこで作られる予測モデルから得られる情報はただ、予測が当たった外れた以上の情報、つまり因果関係を探っていくときの手がかりになる情報が得られますが、その解釈の仕方を知っておくのはデータを分析するに当たってものすごく便利です。


6. データサイエンティスト

これは、前に出てきた3つの職、分析の専門家、統計の専門家、応用機械学習エンジニアの全てができる人たちのことです。

7. アナリティクスマネージャー / データサイエンスリーダー

アナリティクスマネージャーとはデータサイエンティストと意思決定者のハイブリッドです。
正しい質問をどう設計すればよいのか、どう意志決定を行えばよいのか、専門家をどう配置するのが最適なのか、何が今重要なことなのか、スキルとデータはプロジェクトの要件を満たしているか、どうインプットのデータの品質を保てるかなどといった質問をたえず考えている人達です。
訳者注:これはマッキンゼーが言うところのトランスレーターというやつですね。

8. 定性的分析、 社会科学の専門家

意志決定はアートとサイエンスが必要とされますので、この人たちは意思決定者をこういった側面からサポートすることができます。こうした人達は大抵の場合、行動経済学、心理経済学、心理学のバックグラウンドがありますが、自分で勉強してこうしたスキルを身につけた人もいます。
意思決定者の考えていることを簡潔にし、すべての側面から考え、曖昧な直感をよく考えられた指示として、チームの他のみんなが理解することが出来る言葉を使って表現します。
こうした社会科学の専門家は一般に思われている以上に価値があり、データサイエンティストよりも意思決定者の持つ直感と意図をうまく指標に落とし込むためのスキルを持っています。
定性的分析の専門家は自分自身で意志決定をするのではなく、意志決定を行う人がこれから下そうとする決定の意味をしっかりと理解できるようにサポートするのです。

9. 研究者

チームの最初の採用者が元教授だとかPhD(博士)レベルの研究者である必要はありません。一般的に利用可能なアルゴリズムでは自分たちのニーズが満たされないと分かっている場合は別ですが。
こうした人材を雇うことなしにまずはデータサイエンスのプロジェクトを始め、そのへんで手に入るツールやアルゴリズムを使って問題を解決することができるはずです。そこで壁にぶつかってしまうのであれば、その時に初めてこうした研究者を雇うことを考えればいいでしょう。その場合でも、どういう場面でこうした人材が必要なのかははっきりさせておく必要があります。

10. その他の人達

他にももちろん以下のような人材が必要となりますが、この人たちはデータサイエンスプロジェクトにはサイドからのサポートといった形で関わることになります。
* ドメイン知識(業務必要)を持った人
* 倫理の専門家
* ソフトウェア・エンジニア
* 信頼性(Reliability)・エンジニア
* UXデザイナー
* インタラクティブ・ビジュアライザー(可視化)/ グラフィック・デザイナー
* データ収集の専門家
* データ・プロダクト・デザイナー
* プロジェクト / プログラム・マネージャー


以上、要約終わり。
以下、二つほど私の考察を付け加えたいと思います。

1. 意思決定者

最初に意思決定者が必要とありますが、これはぱっと見るとあまりにも当たり前の気がしますが、意外にこれが実は難しかったりします。つまり、今まで経験による直感で意志決定を行っている組織にとって、急にデータから得られた情報によって意志決定を行っていくというのは相当大きな変化です。

私達のトレーニングでもアナリティカル・シンキングのフレームワークとして強調していることなのですが、得られた情報をもって意志決定を行いたいという漠然な希望ではなく、そもそも最初にどういったビジネスの問題を解決したいのか、そのためにはその問題をどう数値に落とし込むのか、さらにデータ分析の結果得られた情報によってどういうアクションを起こすことができるのか、といったことをビジネスの業務知識のある人間が中心になって最初の段階でしっかりと考えておく必要があります。

こうした切り口があれば効率的なデータ分析を行っていくことができますし、逆にそうでなければ、どんなに探索的に与えられたデータを分析しても、いたずらに時間ばかりが過ぎていってしまい、結局はなんとなく興味深いインサイトが得られておしまいということになってしまいます。

2. アナリストとエキスパート・アナリスト

個人的にはここをわざわざ分ける必要はないのではないかと思います。両方とも、現状認識のためのデータ分析という点では同じだからです。

3. ユニコーン・データサイエンティスト

前述のエキスパート・アナリストであり、統計の専門家であり、さらに機械学習の専門家でもあるのがデータサイエンティストとのことですが、こういったユニコーン的なデータサイエンティストは実はそんなに多く存在しないというのが現実ではないでしょうか。

ここは、Airbnbが行っているようにそんなユニコーンを探したり、求めたりすることを潔くあきらめ、逆にそれぞれの専門家であることをよしとし、それ以上に他の分野に関しても得意なのであればそれはそれでいいくらいのスタンスが現実的ではないでしょうか。

そしてそうしたそれぞれの領域で強みがある人達をまとめてデータサイエンティストと呼ぶくらいのスタンスであれば、こうした仕事に関わる人にとってもわかりやすくなるでしょう。

データサイエンスにしろデータ分析にしろチームスポーツですので、それぞれが得意なところを活かしながら、ビジネスのニーズに応じて柔軟にチームで対応していけるようなデータサイエンスのチームを作ることこそ重要なのではないでしょうか。

最後に

先日紹介したAirbnbと今回のGoogleでのデータサイエンスの仕事のタイプの分け方は、似ている部分もあれば、若干違う部分もあります。ここでは、どちらが正しい、正しくないということではなくて、データ先進企業の中でも、こうした様々な考え方があるのだということを知っていただければと思いました。

普段から言っていることですが、このデータサイエンスの世界は多くのことにはっきりとした答えがないことが多く、ベストプラクティスもまだ確率はされていません。それだけ、絶えず業界そのものがものすごい速さで進化していっているからです。だからこそ、おもしろいですし、新しく始めようという人達にもたくさんのチャンスがある業界なのです。パイを取り合うのではなく(ゼロサムゲーム)、いっしょにパイをどんどん大きくしていきましょう!


データサイエンス・ブートキャンプ10月開催!

この10月の中旬に、Exploratory社がシリコンバレーで行っているトレーニングプログラムを日本向けにした、データサイエンス・ブートキャンプを東京で開催します。データサイエンスの手法を基礎から体系的に、プログラミングなしで学んでみたい方、そういった手法を日々のビジネスに活かしてみたい方はぜひこの機会に参加を検討してみてください。詳しい情報はこちらのホームページにあります!