##はじめに:本稿のターゲット
データサイエンティストを目指す若手エンジニアや学生向けに投稿しました
いまもっとも熱い職種の一つとなっているデータサイエンティスト。
その影響もあって大学生や若手の社会人でもその道を目指す人が増えています。
私は現在インターンの採用面談をしていますが、その工程の中で、
◎データサイエンティストはどのような仕事なのか解像度がまだ低い
◎実社会で求められているスキルと目指す側の方向性に乖離が起きている
というようなことを感じましたので一度ここで振り返っておこうと思います。
####データサイエンティストに求められる条件は数学だけなのか?
以下はデータサイエンティストに求められる素養を端的に表現した図になります。
ご覧の通り。求められる素養は プログラミング力、ビジネス力、数学力の3つが条件となっています。
データサイエンティストを目指している学生はほぼ皆さん数学の勉強はしっかりされています。
積極的にコンペに参加したり、そういう研究に参加したり。それ自体はとても素晴らしいことです。今後も是非継続してもらいたいものです。
しかし、気になっているのはそれの一点突破になっている人が多いことです。
私は数学ができます。なのでデータサイエンティストになりたいです。という論理構成で来たら皆さんはどう思いますか?将来は相関、因果、傾向と対策を分析したい人がイケてない論理構成している。この時点で解像度が低く、採用意欲はわきませんね。
データサイエンティストになるには数学***”も”***素養がないといけない。
では数学は当然としてなぜプログラミング力やビジネス力が必要なのか説明していきます。
####プログラミング力が必要とされる理由①データの整形
データさえあれば分析できるという誤解
統計学上必要なデータの母数があれば、分析できると思っている方が多く、むしろそう思うほうがデフォルトだと思うのですが、ここが最初の乖離、解像度の低い原因となります。
ではなぜ分析できないのか?
例 住所記入の場合
◎東京都新宿区西新宿2丁目8-1
◎東京都新宿区西新宿2-8-1
◎東京都新宿区西新宿2-8-1
◎東京都新宿区西新宿二ー八-一
上の住所は全て東京都庁の住所になります。同じものを表現しています。そして全て正しいです。
なので住所としての機能は十分で、郵便を送る際にはどのフォーマットでもちゃんと届くでしょう。
全角数字は基本的に文字として認識されますが、郵便配達の方が読んでわかれば良いので数字だろうと文字だろうと機能します。
しかし解析や分析を行う場合、対象データにバラバラのフォーマットが混在していたら統一性がないので分析できません。
このように住所として機能することを前提として作られた住所録はそれを満たせば十分なので、分析性を考慮していません。世の中にあるデータは分析性を考慮されているもののほうが圧倒的に少ないでしょう。このような場合、分析するためにはフォーマットを統一する必要があります。
データを分析にも適した形に変更するという作業が必要になります。
どのフォーマットに統一するのが良いか(アーキテクト思考等)、いかに手早く作業(プログラミング等)するのか、今後はどういう運用にするか(運用構築等)を考えるためには技術的な考察や作業が必要となります。
大学で使用するデータはすでに整形されているものが多いと思われるので、この作業認識が希薄になりやすいと思います。分析する前にやっかいな仕事があるという認識を明示的に持ったほうが良いでしょう。
####プログラミング力が必要な理由②大量のデータを分析するために必要な環境構築
データが分析できるようになったあとは・・・
こちらは広義な意味で技術力の話になります。
データを分析できる形に整形が終わったら次はデータを分析します。
何十万、何百万、ときには何千万件、それ以上の膨大なデータ量になるかもしれません。
以前はその処理に耐えられるスペックの実環境を用意できる会社でしか巨大なデータ分析はできませんでしたが、現在はAWS等を始めとしたクラウド技術を使用することにより障壁が低くなりました。
しかしクラウド環境とはいえ、高スペックの環境を構築するとコストは高くなります。
重要なデータを扱う場合(個人情報など)、セキュリティの概念も当然必要となります。
その条件はプロジェクトにより異なると思いますが、
適切な予算で、セキュアで、有益な情報を生み出す環境を構築する必要があります。実際のクラウド環境構築作業は別担当者で行ってもらうかもしれませんが、プログラムを実施する上での開発環境の構築という視点が必要になってきます。
####ビジネス力が必要な理由①数字を使って読み解き、お金の概念を含めて説明する力
研究とビジネスの違いを意識しよう
当然ですがビジネスは学術ではありません。お金を稼ぐ優先度は高いです。
研究としての学術的な正しさを追い求めるわけではないので区別が必要です。
研究にお金がかかるのでスポンサーを集める等の逆引き的な商業行為も現実的には必要とわかっていますがビジネスと学術は基本的は別なものです。
学術的に価値がある研究が必ず儲かるわけではありませんし、本質的にはその必要もないです。
ですがビジネスにおいて、自分がある問題の相関や因果を見つけ、傾向と対策を仮説立て実施したい場合、その説明を数学の専門家ではない人達に説明して納得して貰う必要があります。そこには収益の概念も必要ですし、コストの概念も必要です。その概念がない限り、ビジネスとしては成立しません。
いかに良い仮説であっても、実行できなければ一生仮説のままです。それを検証する、現実に落とし込むためにはコミュケーション能力も含めて戦略性などのビジネスの概念や要因が必要になります。
授業で習ったことと違う場合もあるでしょうし、直接的には習っていないことも多々出てくるでしょう。それが当たり前で、それでも問題解決のために注力し続けることが大切です。それが実学としてインターンを経験する魅力でもあると思っています。
####ビジネス力が必要な理由②数字で語るのは当たり前、それはすでにビジネスの常識である
ビジネスの世界語は数字である
実社会で求められられていることと目指している人の乖離の原因の一つがこのポイントだと思います。
学生の皆さんはデータサイエンティストは解析、分析をする人、というイメージを持っている人が多いです。それもある意味正しいですが、それだけをやっている人はごく一部だと思います。
そのようなデータの解析がメインになるような業界、会社は絞られていると思われ
◎すでに膨大なデータがある
◎そのデータが分析する環境が整っている(BIツールなど導入済み)
というような条件がすでに揃っている会社だと思います。
BIツールはビジネスインテリジェンスと呼ばれ、ビジネス上で必要な気づきを数学的思考やビジネスのテンプレートに則り見える化を手伝うシステムだと思ってください。
Tableuなど高度なBIツールになれば専門性のある数学の知識も必要になってきます。それを使って分析をメインで行っているデータサイエンティストの方もいるでしょう。その場合は数学の専門性が重要になってくると思いますので、数学の専門性を持っている学部(理工学部、数学科)などのほうが強いのではないでしょうか?そしてそのような募集はデータサイエンティストの中の少数あると思われます。
自分がそこを目指して数学のコンペや勉強をしている人は問題ありません。そのまま続けましょう。しかし、ただデータサイエンティストがそんなイメージだから、というだけの方は注意が必要です。
現在の実社会においてある程度のビジネススキルを持つ人であれば、簡単(場合によってはある程度の)な分析や解析は行います。目標や計画を数字で語る上で必須のスキルであるからです。
データが準備できており、ExcelのPivot機能でその説明に十分な表現ができるならそれでOKです。
言い換えればそれ以外の場合、それ以上の専門性(プログラミング、数学、ビジネス)が必要な場合でデータサイエンティストの出番となるわけです。将来的に自分の強みをどこにおくのか、そのイメージは持っておいたほうが良いでしょう。
####レース場でタイムを競うのか、ボコボコの道をタフに走り抜けるか
同じレースだけど質が違う
ごく一部のデータ解析をメインに行える人たちのイメージがF1のような整備されたレース場をいかに早く走り切るかのレースをしているのと同様です。道路もマシンもスタッフもお金や時間を使って整っている。あとはそれらを最大化するためにどうするかが腕の見せどころ、といった感じです。
その他の大多数の人はオフロードレースでボコボコの道を走り抜ける技術や気構えが必要となります。どこに穴が空いているかわからない、ひょっとしたらマシンが壊れるかもわからない、それでも応急処置をしつつ走り抜ける。そのような整地作業を経て次のフェーズに進むというイメージです。
現状の実社会ではオフロードのようなボコボコのデータを整形し、環境を整えたくてもなかなかうまく行かず、ようやく分析し、解析して正しいか考察する、それを繰り返すといったような泥臭い作業が多いです。決して華やかな仕事ばかりではありません。
こちらもまたインターンを実施する場合、どのような仕事が多いのかイメージのすり合わせを行ったほうがミスマッチが防げると考えています。
###まとめ
最後に要点をまとめておきます。
◎データサイエンティストには数学力、プログラミング力、ビジネス力が必要
◎データを分析する作業の前にはデータが分析できるようにする作業が必要
◎学術とビジネスは目指すゴールが違う
◎自分の強みはどこになるか考えよう。
◎データサイエンティストは泥臭い作業も多い(能力としてそこが求められている)
以上のポイントを再度認識しておくようにしてください。
###面接の準備として・・・
学生の段階で数学、技術、ビジネスのすべての素養が十分にある、という人はいません。
もしいたらインターンをする必要はないでしょう。
なので、面接の準備として(これはインターンの面接に限らずですが)
自分の得意な分野、課題のある分野を自分自身で把握し、将来進みたい方向をざっくりでいいので決めておきましょう。もちろん後で進路変更しても良いでしょう。思ったのと違ったのであれば修正することも全然OKだと思います。
ですが自分の希望とミスマッチを起こさないためにその準備自体はしっかりとしておきましょう。
##インターン募集中です
株式会社EXIDEAではデータサイエンティストのインターン生を募集しております。
この文面を読んで我こそは!という方はぜひ以下のURLから応募してください。
皆様の応募をお待ちしております。
Wantedlyから・・・
https://www.wantedly.com/projects/782385
01インターンから・・・
https://01intern.com/job/2745.html
####補足
データサイエンティストに求められるスキルチェックリスト
https://www.datascientist.or.jp/news/release20211119/