さようなら、データサイエンス!
この10年近く、世の中には大風呂敷を広げたデータサイエンスのプロジェクトがたくさんありました。どこかに貯めたビッグデータを使い、様々なデータをつなぎ合わせ、最新のAIのアルゴリズムを使い将来を予測し、私達が問題に気づく前に問題を解決してしまいましょう!といった感じの浮ついた話がたくさんありました。多くの企業にデータとかデジタルという名のつくオフィサーが出現し、プロトタイプとして終わることになるプロジェクトを何本も走らせている、そんなバブルの時代がありました。
しかしここ数年のコロナによるビジネスの縮小、世界的なインフレと金利上昇、地政学的リスクやエネルギーの高騰などによって、経済が不景気になり、私の住むアメリカでは多くの企業で大量の解雇が始まっています。これはアメリカだけではなくヨーロッパや日本も同じような傾向があるのではないでしょうか。
ウォーレン・バフェットが昔、「不況になると潮が引いて、誰が裸で泳いでいたのかがわかる」と言っていましたが、データサイエンス業界でも収益の改善、コストの削減などといったビジネスにとって明確な成果につながらないプロジェクトは中止になり、そうしたプロジェクトに関わっていた人は次の仕事を探さなくてはいけなくなってくるでしょう。
そんな中、最近データエンジニアとしてキャリアを歩み始めたという元データサイエンティストの人による「グッバイ、データサイエンス」という記事がありました。これまでやってきたデータサイエンス・プロジェクトの理想と現実の差に嫌気が差し、より明確な結果を出しやすく、また「政治的」になりにくいということで、データエンジニアリングの道を専門としてやっていく道を歩みだしたとのことですが、いくつか参考になる点があったので、一部抜き出してこちらに要約として紹介します。
以下、要約。
私にとっての一番の問題はいつもマネージメントでした。私は2021年までの主なトレンドであった完全なクレイジーさというやつにとても疲れてしまいました。多くの企業では、クレイジーだからという理由でそうしたクレイジーなプロジェクトにどんどんと手を出していきましたが、普通に常識のあるまともな人間であれば、試す前にそんなものはできるわけがないとわかっているにも関わらずです。
マネージャーたちは「データドリブンな意思決定」をしたいというが、実際のところ彼らが欲しいのは「意思決定ドリブンなデータ」だ。
訳者注:多くのビジネスで、データを元に意思決定を変えるということはなく、すでに意思決定はされていて、それを正当化するためのデータを作ってほしいとデータサイエンティストやデータ分析者に求めることが多いというのはよくあります。
なぜこうしたマネージャーたちはクレイジーなアイデアを追っかけることになったかと言うと、そもそもビジネスのドメイン知識はないがそういう新しいことをするために雇われたからです。さらに、スタートアップなどではベンチャーキャピタルなどの投資家がそういった、わけのわからない流行りの新しいプロジェクトにお金をどんどん使うことを求めたkらです。
こういった時代のデータサイエンティストたちにとってのキャリア構築というのは、なんらかの流行りの機械学習のAPIの使い方を学び、浅く、聞こえはいいが使い物にならない知識を身につけるというものでした。
実際にデータサイエンティストとして仕事をするときに一番問題になるのは、データ基盤(インフラ)がしっかりしてなかったり、データの品質が悪かったりといったことなので、自分のデータサイエンティストとしての仕事の効率を上げるためには、こうしたデータの問題を解決するために必要なスキルを付けることこそ、何より重要であるにも関わらずです。
最先端の言語モデルがどういう仕組みで動くのかを理解したり、高度な数式でいっぱいになった最先端のアルゴリズムに関する論文を読んでも、私にとっての知識のギャップが埋められることはありませんでした。
個人的には、データサインエスや統計関連の教科書の最初のいくつかの章を読み(残りは無視する)、たまに、ログの計算ってどうなってたっけ、などといった恥ずかしいほど基礎的な数学の知識をほじくり返すといったことこそが私のキャリア向上、スキルアップには大いに役立ちました。
そもそも毎日のように「DALL_Eは何億ものパラメーターを持っているディフュージョンモデルだ」みたいなブログポストを読んだりしても、それらは自分の仕事にはまったく関係ないものです。中途半端にこういった上辺だけのコンテンツの消費に時間を費やしてる人達の大半は、この数年間の間に専門的な本のたったの数章すら読めてなかったりするものなのです。
私がデータエンジニアリングが好きな理由は様々ありますが、その中の1つはクレイジーなマネージメントの思いつきや方向によって右往左往させることが圧倒的に少ないということです。私のスライドがどれだけよいのか、1つの文章の中にどれだけ流行りの言葉を入れることができたかではなく、データパイプラインがどれだけよくできているのか、といった具体的なことによって私の仕事は評価されるのです。
最終的には、データサイエンティストがデータエンジニアである私をより必要としています。というのも、私が存在するから彼らの成果物(機械学習のモデルやデータなど)がプロダクションのシステムで運用され、彼らが必要とするデータを取り出すことができるからです。
もし今私の仕事先が人を減らさなくてはいけなくなった場合、データサイエンティストではなく私を解雇するのはあまりにも馬鹿げた判断となるでしょう。
私がデータエンジニアの道を好むのは、なによりも独立していると実感できるからです。
振り返ってみて、データサイエンスの仕事をしてきたことには何の悔いもありません。しかし、現在データエンジニアとしてのキャリアチェンジを楽しんでいるのも事実です。そして私はこれからもデータサイエンスの仕事も続けるでしょう、というのもこの2つの仕事は現在の定義においては重なっている領域が多いからです。例えば、どちらの仕事でも40%ほどの時間はSQLを書いてデータを取ってきたり、データの加工をしたりといったことをすることになるのです。
ーーー
要約、終わり。
あとがき
データサイエンスの中にも2つの方向性があると思います。1つはビジネスに近い側で、ビジネスの改善に興味があり、データを使い、データサインエスやデータ分析の手法を使って意思決定に役立つ知見を得たいという方向。こちらは仕事上人間(顧客、上司、パートナー、など)を相手にするので、何か明確な方向や答えが決まっているというわけではなく、そのしで意思決定が政治的になってしまう可能性はあります。
もう1つは、エンジニアに近い側で、求められている成果物がある程度決まっているので、それをどう効率的に成し遂げるかが問題となる方向です。こちらはできたかどうかという明確な判断がしやすいため、政治的になりにくく、スキルがよりものを言います。
どちらがいいと言うわけでもなく、こればかりは自分が好きな方に進んでいくのがいいと思います。というのも、自分が好きな方向、納得しやすい方向で仕事をする方がより自分の力を発揮しやすく、さらに自分も成長しやすいからです。
しかし、実際には私達は多くの人間が共同で存在する社会の中で生きているわけで、多くの場合、曖昧で不確かな人間と関わり、さらに人が集まると政治的になっていく集団の中でやっていかなければならないという現実もあります。
ビジネスに近い、つまり意思決定が行われる側に近いというのは、こうした現実とどう渡り合うか、どう影響を及ぼしていくか、ということを考え実行する機会があるわけでもあります。それだけにうまくいったり行かなかったりを繰り返し、人間社会を学んでいくというのはそれはそれで面白いものだと思います。
また、オリジナルのブログポストの中では、データエンジニアの方が解雇されにくいとありますが、これはビジネスにおいての明確な成果を出せない、もしくは説明することができない「データサイエンス」の仕事をしている人と比べた場合においては正しいと思います。この10年の間に盛り上がったデータサイエンスやAI関連のプロジェクトでプロトタイプを発表し、現実のビジネスの世界で成果を出す責任から開放されていた人達はこれからが大変だと思います。
しかし、これはデータエンジニアの方も同じで、いかに効率的に仕事をするかだけに重きをおいていた場合は、ある日突然、自分のしていた同じ仕事が自動化されることになったり、または海外や社外へのアウトソースされることになったりする可能性もあるのです。企業で働く以上は、ビジネスにおいての問題を解決することが何よりも優先されるという厳しい現実があるのも事実です。
そういう意味でも、人間社会で活躍するにはやはり「意思決定」が行われる場に近い、またはそこに責任を持つ人間になれるようキャリアを構築していくことが必要になるのではないかと思います。そして、データを使ってよりよい「意思決定」を行うことができる、その手助けができる、そうした人材はまだまだ全然足りていません。「データサイエンス」といった言葉に翻弄されるのではなく、こうした具体的な目的に焦点を合わせてキャリアを作っていくことが、これまで以上に求められるのではないでしょうか。
以上。
データサイエンス・ブートキャンプ・トレーニング
データサイエンス、統計の手法、データ分析を1から体系的に学ぶことで、ビジネスの現場で使える実践的なスキルを身につけたいという方は、ぜひこの機会に参加をご検討ください!
ビジネスのデータ分析だけでなく、日常生活やキャリア構築にも役立つデータリテラシー、そして「よりよい意思決定」をしていくために必要になるデータをもとにした科学的思考もいっしょに身につけていただけるトレーニングとなっています。