データサイエンティストをユニコーンだと思っていましたが、シチズンデータサイエンティストを定義することも見つけることも、もっと難しいようです。
高度な分析やデータサイエンスの世界に目を向けると、これらに従事する人々を「データサイエンティスト」と「シチズンデータサイエンティスト」という2つに分類するのは簡単です、というより簡単すぎるほどです。前者は博士号を持ち、膨大なデータセットを扱う経験があり、少なくともブートキャンプに参加したことがある人々となるでしょうが、後者の人々を見つけ、シチズンデータサイエンティストとというラベルを付けるのは難しいことがわかってきました。
具体的な例を挙げましょう。実は最近、LinkedInの検索機能で、シチズンデータサイエンティストに該当する人々を検索してみたのです。結果は、「ゼロ」でした!求人情報では、「シニア」「プリンシパル」「機械学習」のデータサイエンティストは見つけられましたが、「シチズン」と付いたデータサイエンティストの求人はありませんでした。企業はシチズンデータサイエンティストを育成し、彼らが使うための製品を提供したいと考えているようですが、誰も彼らを「シチズンデータサイエンティスト」とは呼びたがらないのです。LinkedInでも、自らをシチズンデータサイエンティストと名乗る人は誰もいませんでした。
このような、一見、神話ともいえる人物を見つけるために、私たちは最近、世界的な大手製薬会社の数百人のスマートな方々や分析の専門家が集まる会議に出席しました。友人のKelci Miclausは、会議の参加者全員に対して、シチズンデータサイエンティストの方は手を挙てくださいと頼みました。200人以上の出席者のうち、シチズンデータサイエンティストは一人もいませんでした!
では、シチズンデータサイエンティスト(ここではスペースの都合上、CDSと呼ぶことにします)を見つけるのが難しいのはなぜでしょうか。私たちは、CDSを見ればわかると思うし、CDSになりたいと思う人はたくさんいますが、CDSになる人はいないようです。
深掘りしてみましょう、AIはどう言うでしょうか?
そこで、もちろん、私はChatGPTに聞いてみました。データサイエンティストとCDSの定義を比較して私が得たことの一つは、CDSはデータを扱うことに熟達し、問題を解決し、ビジネスインサイトを提供し、非常に価値のある存在であるということです。しかし、RやPythonのプログラミングスキルがなく、よりシンプルなデータ分析ツール(高度な統計モデルや機械学習アルゴリズムの代わりに、スプレッドシートやビジュアル分析ツール)を使用することも、CDSの定義となります。ChatGPTによると、彼らはまた、もっと正式に訓練されたカウンターパートに比べて小さなデータセットを扱うことが多いそうです。
ChatGPTは、両者の役割の直接的な比較を求められた際、「シチズンデータサイエンティストは、データからインサイトを得るためにデータ分析ツールやテクノロジーを使用する非専門家である」と述べました。それはひどく控えめで短絡的な表現に思えます。CDSは正式なデータサイエンスのカリキュラムを持たないかもしれませんが、一般的には経験、視点、「物事の仕組み」についての知識、データで問題を解決する能力を持っています。
「シチズンデータサイエンティスト」という特定の用語で自分を表現しない人もいますが、データを使って情報に基づいた意思決定を行うデータアナリストやデータドリブンの問題解決者であると考える人もいるでしょう。データサイエンスの正式なカリキュラムがないとはいえ、経験、ビジネス中心の知識、問題解決能力、「物事の仕組み」についての一般的な知識を持っているので、「非専門家」とは言い難いものです。
データドリブンの問題解決者
「データドリブンの問題解決者(Data-driven problem solvers)」という概念は、とくに強力なコンセプトです。このような人たちを、限られたスキルセットを持つアナリストと考えるのではなく、彼らの本当の姿を認識しましょう。彼らの中には一流のビジネススクールを卒業した人々も多く、物理学の博士号を持ちながらその膨大な問題解決能力をビジネスやエンジニアリングの課題解決に活かしてきた人たちだったり、10-20年の経験を持ち、データを解釈しビジネスインサイトを導き出す能力によって数千万ドルのビジネス価値を生み出す洞察力と視野を持つビジネスプロフェッショナルだったりすることが往々にしてあります。コーディングスキルがあってもなくても、正式なデータサイエンスのトレーニングを受けていてもいなくても、難しいビジネス課題を解決し価値を創造する能力こそが、彼らを定義するのです。
Dataikuは、データサイエンティストとシチズンデータサイエンティストという区分けから、データエキスパートとドメインエキスパートにフォーカスを当てるようになりました。これは良いことだと思いますが、データサイエンティストではない人々をより細分化する余地が残されています。
強力なツールとデータへのアクセスがあれば、これらのユーザーは強力なビジネスアナリストになります。彼らは、特定のモデルを構築すること(あるいは特定のAIアルゴリズムやツールを使用すること)よりも、知識の深さによってより高い価値を実現できるような特定の問題を解決することに重きを置いています。彼らはデータサイエンティストに取って代わるのではなく、むしろデータサイエンティストとチームを組んで、問題を解決し効率を生み出せるコラボレーション・パワーハウスを構築するのです。
このようなユーザーの手にかかれば、データ管理、かつ高度な分析、かつ透明性、かつ実験、かつ他者とのコラボレーションを可能にする柔軟なツールキットは、単なるAIプラットフォームではなく、知識プラットフォームとなるのです。GE Aviationのような企業が「物理ベースのエンジニアリング」を実現し、数百万ドルの価値を提供できるのは、このようなユーザーのおかげです。ニューヨークの大手銀行が、わずか2、3年で5,000以上のプロジェクトを本番稼働に移すことができるのも、このようなユーザーの手によるものです。
NXPの品質エンジニアが仮想計測を利用して製造上の欠陥を検出し、材料費とエンジニアリングコストを数百万ドル削減した事例もその一例です。また、ある大手ヘルスケア企業が、プロバイダーのネットワークを効果的に管理することでコスト削減を果たしたり、患者転帰の改善を実現した事例もそうです。また、ある小売業では、アナリストチームが新しい需要予測モデルを2週間以内に展開できるようにし、別の小売業では、アナリストが新しいデータソースを実験・活用できるようにすることで、SKUレベルの需要モデルの70%を改善しました。また、このようなユーザーは、よりシンプルなツールや少ないデータ量に限定されるという認識がありますが、スタンダードチャータード銀行では、権限を与えられたビジネスアナリストが一度に数十億行のデータを処理し、最先端の計算環境を活用しているという素晴らしい事例があります。
ビジネスパーソンは、シチズンデータサイエンティストを目指さないかもしれませんし、自分自身をCDSとして認識することもないかもしれません。しかし、そのような積極的なスキルと特性を持つ人々は、権限を与えられたビジネスアナリストとして認識され、実験、知識の創造、価値の提供に必要なツールが提供されれば、大きな価値とビジネスの変革をもたらすことができるのです。
ガートナー社のデータサイエンスと機械学習のハイプサイクルを読む
ガートナー社のデータサイエンスと機械学習のハイプサイクル(英語)では、コンセプト(シチズンデータサイエンスを含む)、ビジネスへの影響、主要な推進要因、導入の障害などを紹介しています。