CodeInterpreter機能もできて、脊髄反射で「データサイエンティストはオワコン!?」って思っちゃったけど、多分データサイエンティストこそ強者は人で求められるだろうな。
というのも、データサイエンティストとして求められるのは次の通りだと思っている。
A. データ(ファクト)から意見を出す
B. 広大なデータから、テーマに必要なデータだけ取捨選択して使用する
C. 分析技術を駆使する(SQLから、統計検定レベルの技法まで)
ChatGPTでできるデータサイエンティストの仕事
ChatGPTなど大言語モデル(CodeInterpreter含む)ができることのメインはCである。
そのため、データクレンジングとか、ちょっとしたデータ出しで、非エンジニア・非データ使う人との技術差分で仕事をしてきた人の仕事は無くなると思う。
(実際は、ChatGPT含めた大言語モデルを使い続け、使いこなす人は今のマクロ・GoogleAppScript・プログラミングをする層と同じ層になるだろうから、
ほとんどの社会人は触ることなく
データクレンジングとかしかしないデータサイエンティストが、裏でChatGPTとかを使いながら、残っていくと思う笑)
Bについても、難易度が高い。
かなり時間が経って育ってきたり、
「この分析がしやすいようにこのデータを入れて」という
制約されたインプットに対しては柔軟でパワフルな分析をするというツールが生まれたら対応できるかもしれないが、
(分析手法やライブラリ活用の話とは違うが、時系列のデータをパワフルに扱うのにProphetを使うとかはある種それに近い)
短期的には、というか、もう育ってしまった大量のデータには扱えないと思う
ChatGPTにデータサイエンティストの仕事
上記で書いたCも結局、意味抜きされた汎用的でどこでも活かせる技法だが、
データサイエンティストとして価値ある仕事をするには、その意味抜きされた意味、ドメイン知識と呼ばれるような業務知識や業務特有の経験や勘が手法と同程度、いやそれ以上に必要になる。
Aについてはそれが顕著だが、汎用大言語モデルであるChatGPTは、問われたときに「M・N・Oという選択肢があります」とは言えるが、どれをやるかは言ってくれない。
表面的に言えば、それを行ったときのリスクに責任を持てないからだが、
実質で言えば、選択の結果がわからないからであり、
さらには実行者でないから、インプットされていない状況下での行動の結果の予測も難しい。
Bについても前述した通り、限定した箱庭的データだけなら良いが、大抵はそれ以上のデータを扱う。
ChatGPTで何でもできるといえば聞こえは良いが、結局今行われている原始的なデータ操作をラッピングしているに過ぎない。
データを持つテーブルなんて平気で100を超え、それぞれに意味を持ち、他のテーブルとも関係しあって現実の事象を記録していく。
その会社に入った新米と同じく、ChatGPTはそれらのデータを知らない。
その存在に対して、その会社の経験豊富な玄人並みのインサイトを求めても厳しい。どのデータを見るとコツを掴んでいるといえるかわからないからだ。
ChatGPTを使って更に強くなる強者
別にChatGPTにできない人間にしかできないことあるよね、という人間マウントを取りたいわけではない。
ただ、ChatGPTにはA,Bが難しい。
そして、価値のあるデータサイエンティストはA,Bで飯を食っている。
さらにメンテナンスが面倒くさいCについてはChatGPTが担ってくれていて、指示すればいいので、優秀なデータサイエンティストに言われたことは着実にやってくれる秘書がついてくれたに等しい。
そして実はデータサイエンティストになるにあたって、表面上の壁と思われてきたCがアシストされたことで、Bができれば、今データサイエンティストじゃない人でもデータサイエンティストになれる道はある。
その意味で、ChatGPTが出てきても、優秀な人は更に強者になるだろうと思った