はじめに
2022年11月30日、ChatGPTの公開から約1年が経過しました。
この1年で私たちを取り巻く状況は大きく変わったように思います。それまで自然言語系の機械学習モデルは”すこしはそれらしい推定ができる程度”の技術で、機械翻訳以外ではあまり効果を発揮していませんでした。ChatGPTが公開され、自然な対話ができ、自然で論理的な論文をかけるようになったり、曖昧な指示からコードを生成できるようになってそういった認識が大きく変わりました。
そのときの私の驚きについてスティーヴン・ウルフラム氏の”ChatGPTの頭の中”を読んでこちらのエッセイにまとめましたのでご参考ください。
同様に、データサイエンティストの取り巻く状況も大きく変わってきました。ChatGPTのような生成AIを使うことでスキルを補ったり、あるいは生成AIのAPIを使うことで機械学習モデルを設計したりトレーニングのためのデータを集めなくても簡単にサービスを作れるようになりました。
これらChatGPTの公開後の世の中の変化を背景として、様々な分野で働き方や職業のあり方が変わってきています。この記事ではデータサイエンスの領域で企業のDXを推進している私の視点から、データサイエンティストのこれからについて考察していきたいと思います。
データサイエンティストの要件は変わったか?
データサイエンティストのスキルは数多あると言われていますが、データサイエンティスト協会が定義しているスキルチェックシートが参考になります。
2023/10/30に公開されたver.5では去年の定義に加えて新たに生成AIに関する条項が追加された合計650項ものスキルに分かれて定義されています(私も過去にやってみましたが、一つ一つ評価するだけでもかなり時間がかかりました)。カテゴリー別で見てみると、データサイエンス力、データエンジニアリング力、ビジネス力という大カテゴリーの中に様々な小カテゴリーに分かれています。また、スキル定義の細目まで見ていくと、例えば権利保護や行動規範に生成AIを前提とした倫理観などの項目などが追加されています。
このことからわかるのは、データサイエンティストのスキル要件がChatGPTの登場前後で思ったよりも劇的に変わったわけではない、ということです。
では、データサイエンティストを取り巻く環境は何が変わったのでしょうか?
生成AIによるデータサイエンティストの領域の変化
その疑問に答える前に、生成AIによってデータサイエンティストが関わる領域でどんなことができるようになったのかを簡単に振り返ってみたいと思います。
コード生成による生産性向上
データ分析や機械学習モデルの開発に必要なコードを迅速に生成することができるようになりました。また、プログラミングスキルが初級レベルの人々も、データ分析の進め方をきちんと理解していれば複雑なデータ分析タスクに取り組むことが可能になりました。
データの読み込み、適切なコード生成、実行まで
コード生成に加えて、Advance data analysisやOpen Interpriterを使うことで、言語でコードを生成、実行することができるようになりました。コードの実行環境の設定、発生したエラーのデバッグも生成AI側でやれるようになったので、エラーをいちいち読んで原因を探して……というようなコーディングのストレスが激減しました。
生成AIのAPIを利用したサービスの開発
これまで、AIを使ったサービスをちゃんと作るにはデータサイエンティストがきちんとした設計・要件定義をしたりする必要がありました。特に自然言語処理は高度な専門知識も必要でしたし、チャットボットを作るにしてもそこそこの手間がかかっていました。
ChatGPT-APIを始めとした生成AIのAPIが公開されて使えるようになったことで、この状況が大きく変わりました。言語に関わる分野を中心としてAIを内製するのではなくAPIを使ったり、生成AIをファインチューニングをすることで簡単に高度なAIを作ることができるようになったのです。個社では学習に使えるきれいなデータを集めることが難しいという問題、データサイエンティストや機械学習エンジニアが自社内に居ない問題など、AIを使ったプロダクトを作ることは企業にとって難しいことでしたが、その常識が覆ったのです。
また、企業でなく個人レベルでも生成AIのAPIを使ったサービスを作れるようになりました。例えば私は新規事業開発やスタートアップの支援ツールとして、GPT-4を使ったValue Discoveryというサービスを数人のメンバーとともに作っています。ユーザーのInputしたビジネスアイデアから仮説を作ることができるのですが、初期リリースまでにかかった時間はたったの1週間でした。汎用的なAIをAPIで使うことができることで、AIプロダクトを作るハードルは極めて低くなってきたといえます。
上記の例に共通して言えることが2つあります。一つ目は、これまで人間がサポートしなければできなかったことの多くが生成AIと個人の間だけでできるようになった点、二つ目は、AIを使う技術的なハードルが下がって劇的に活用が高速化した点です。
これは少し抽象化して言うなら、技術の発達によって人間の能力が新たに拡張した、と言えます。次に、このような変化がデータサイエンティストにとってどのような意味があるのか考えて行きます。
データサイエンティストの力点が変わった
さて、先に立てた問いに対する私の答えは「力点が変わった」ということです。
ChatGPTのような生成AIの出現によって、プログラミングのような、データサイエンスを実行するためのスキルは代替可能な部分が大きくなりました。言うなれば、人間が直接その”スキルを使うこと”に習熟する必要性が減ってきたのです。こちらはAIエージェントのトレンドと捉えることができますが、ここでは話が脱線してしまうので割愛します。(参考:オペレーティング・システムから、オペレーティング・エージェントへ)
また、自然言語で指示ができるようになり、簡単にAIプロダクトを作れるようになったことで、機械学習モデルを設計するニーズも自然言語分野を中心として相対的に低くなってきました。
※補足:データサイエンススキルやデータエンジニアリングスキルが不要ということではありません。処理の内容や考え方は正しくデータを理解し、扱うために必要不可欠だからです。そうした理解に基づいて生成AIを使うことが前提になります。
逆に相対的に重要度が増してきたのは、(元々重要だとされていましたが)解くべき課題を適切に定義するスキルです。安宅和人氏の著書「イシューからはじめよ」の中にも書かれているように、いい仕事をするためにはイシュー度の高い問題(本質的な問題)に絞って取り組んで行く必要があります。また、アインシュタインも以下のように述べたとされています。スキルを持った人間にとって問題は何かの本質(イシュー)こそが最も注意する点と言えます。
If I had an hour to solve a problem I’d spend 55 minutes thinking about the problem and 5 minutes thinking about solutions.
問題を解決するために1時間あったら、問題を考えるのに55分、解決策を考えるのに5分を費やすだろう。
以上から言えることは、データサイエンティストに求められるスキルはあまり変わらなかったが、力点がより抽象度の高いスキル、課題定義のスキルにシフトしたということです。
これまでデータサイエンティストには様々な人がいました。解析に特化している人やエンジニアリングが得意な人、顧客との対話の中から課題を見つけることが上手い人などなど。そのバラエティには面白さがありました(私個人的には)。生成AIの登場による環境の変化によって、より総合的なバランスが求められるようになってきたのです。
ここまで書いてきて思いましたが、遠くない未来ではもはや”データ”サイエンティストというものは存在せず、様々な分野を広く知り考えられる単なるサイエンティストに収斂していくのかも知れません。そういう時代には更に課題を定義できる能力が重要になっていくでしょう。
おわりに:これからの時代を生きる
これまで見てきた力点の変化というのは、それから発生する現象の観点から見ると役割の変化として観察できると思います。生成AIのブレイクスルーにより、データサイエンティストの役割は、単なるデータ分析というような具体的なスキルの発揮から、戦略的な意思決定、データインフラの設計、ビジネスインサイトの提供というような抽象的で課題そのものを捉えて方向を決める役割が求められるようになっていくでしょう。
では、課題定義のような汎用的で抽象的なことだけがデータサイエンティストにとって重要なのかというとそうではありません。これもバランスの問題ですが、課題定義のスキルという点では汎用的ですが、扱う課題を十分理解できるかどうかはその分野のドメイン知識をしっかり持っていることが不可欠です。なぜなら、ニュートンが万有引力を初めて発見・定義したように、現象から”意味のあること”を見つけるためにはそのことに精通している必要があるからです。
そう考えると、データサイエンティストがきちんとしたドメイン知識を身につけること、というのは射程の長い指針になるかもしれません。
有史以来、あらゆる発見はドメイン知識(観察と経験、知識の蓄積を含む)とそれらの組み合わせによってなされてきました。データサイエンスはある意味でそのドメイン知識の活用先であり、手段の一つでしかありません。
役割としての価値が流動していくこれからの時代、これまで述べてきたことも移り変わっていくでしょう。その中でデータサイエンティストとして、どんな方向に向かっていくべきなのかという問いを持ち続けることがこれからの時代を生きる、ということなのだと思います。
以上