1. まずは「データサイエンティスト」を定義しよう
「データサイエンティスト」を定義しよう
- 就職・転職など職を求めている場合は、その会社が求めている「データサイエンティスト」とは何か
- これから新しく始めるなら、自分がなりたい「データサイエンティスト」とは何か
とかくこういうように流行のワードはみんなが自分の解釈で適当に言っている場合が多いです。これに振り回されると疲労だけで誰も得しません。
- あの「データサイエンティスト」は「データをくれ」というだけで現場に入っていかない
- 「データサイエンティスト」には「数学」が必要だ
- ビジネスを知らない「データサイエンティスト」は意味がない
- 「データサイエンティスト」ならまず、クラウド、GitHub、Pythonのスキルが必須だ
- 「データサイエンティスト」には実は◯種類あります
とか
その「データサイエンティスト」って何ですか?
アカデミアのことは分かりません、また趣味でやるならご自由にどうぞ。でも少なくともビジネスでやるならば、
- ビジネス上の問題をデータサイエンスで解決できるように定義する
- それを解決する
このためにはふわっとした顧客の問題を解ける形にきちんと定義することが必要です。
「あなたの問題はこうで、目指す目的はこれで、ということはこれを解くのが課題で、このギャップを埋めるにはこのデータとこのアルゴリズムを組み合わせて、このKPIをクリアすることですね」
例えばこう。
そもそも「データサイエンティスト」という言葉を好き勝手に使っている人にはこれはできません。
2. 共通の物差しとしてのDS協会スキルリスト
共通の物差しを使おう
これが「データサイエンティスト」だ、と国が決めているものでもないので、どうしたらよいか。それが絶対正しい尺度ということでもなくとも、少なくとも多くの人が共通に使える物差しを使うべきです。
他のITならば情報処理技術者試験やIPAのスキルリストがありますが、「データサイエンティスト」についてはIPAのスキルリストにも採用されているデータサイエンティスト協会のスキルリストを使うのがよいと思います。
出所:https://www.datascientist.or.jp/dscertification/what/
これ、よく引用されている割には、いざ「データサイエンティスト」の求人をどうしよう。「データサイエンティスト」のロードマップを考えようとなると忘れられてます。そして冒頭に書いたように、
- ある人は「ビジネス力」に比重を置いている
- ある人は「データサイエンス力」に比重を置いている
- ある人は「データエンジニアリング力」に比重を置いている
- ある人は3つのスキルをもったスーパーマンみたいな人を思い浮かべている
よく、世の中で言われてそうな「データサイエンティスト」関連の職種はこの3つのスキルの比重の置き方にすぎません。この比重が決まっているわけではないですが、少なくとも「どこに重きを置いた人材が必要なのか」「自分はどこに重きを置いてなろうとしているのか」を明らかにする必要があります。
3. スキル比重で分類する「データサイエンティスト」職種マッピング
レーダーチャート(Mermaidで描きましたがExcelでもレーダーチャートは描けるので試してみてください)でざっくり分けるとこんな感じかなと思います。
- ビジネス解決に重きを置いた「データサイエンティスト」として、データアナリストやビジネスアナリストなど。
- 狭い意味でのデータサイエンスに重きを置いた「データサイエンティスト」として、狭い意味でのデータサイエンティストや機械学習エンジニア、AIエンジニアなど
- データを扱うことに重きを置いた「データサイエンティスト」として、データエンジニアやデータアーキテクトなど
ChatGPT o4-mini-highと相談した結果、もう少し細かく世の中で「データサイエンティスト」系の職種として言われているものの3スキルのイメージを噛み砕くとこんな感じです。
分析・コミュニケーション系
問題からデータサイエンスとしての課題定義。結果をわかりやすくビジネスの言葉で伝えるなどの役割ですね。
-
データアナリスト
- データを収集・可視化し、ビジネス課題解決のためのインサイトを提供する。データの解釈やレポート作成を通じて、具体的な意思決定を支援する役割
-
ビジネスインテリジェンスアナリスト
- BIツールを用いて経営指標をダッシュボード化し、経営層や他部門に対して市場動向や業績分析のレポートを提供
-
データストーリーテラー
- データ可視化とナラティブを組み合わせ、分析結果を分かりやすい物語として伝える専門家。ビジュアルと文章でステークホルダーを説得し行動を促す
高度分析・モデル開発系
ざっくりいうとAIを操る人。世の中で言われる「データサイエンティスト」はここのことを言うことが多いかも。
-
データサイエンティスト
- ビジネス課題を定義し、統計モデルや機械学習アルゴリズムを用いて予測分析や因果推論を行い、意思決定に資するソリューションを提供
-
機械学習エンジニア
- 構築した機械学習モデルをプロダクション環境に組み込み、スケーラブルに運用・最適化する役割です。モデルのデプロイやモニタリング、CI/CDパイプライン構築などが主な業務
-
AIエンジニア
- ニューラルネットワークや深層学習を含むAIシステムの設計・実装・検証を行い、業務アプリケーションへの統合を担当
-
機械学習研究者
- 新規アルゴリズムの研究開発に特化し、論文発表やライブラリ開発を通じて最先端技術を探求するR&D職種
- ほとんどアカデミアに近いですが、AIでは研究とビジネスの距離が近すぎて見分けがつかないですね
-
統計解析者
- 統計的手法を駆使してデータの信頼性検証や実験設計を行い、ビジネスや政策立案のための定量的なエビデンスを提供。サンプリング設計からモデル構築、結果の解釈・報告までを専門に担う
- 統計学→機械学習のように進化した、みたいな記事もちょいちょい見かけますが全然別なスキルでオーバーラップが多めなだけなので要注意です
分類 | 職種 | ビジネス力 | データサイエンス力 | データエンジニアリング力 |
---|---|---|---|---|
分析・コミュニケーション系 | データアナリスト | 4 | 3 | 2 |
ビジネス(インテリジェンス)アナリスト | 5 | 3 | 2 | |
データストーリーテラー | 4 | 4 | 1 | |
高度分析・モデル開発系 | データサイエンティスト | 3 | 5 | 3 |
機械学習エンジニア | 2 | 4 | 4 | |
AIエンジニア | 2 | 4 | 3 | |
機械学習研究者 | 1 | 5 | 2 | |
統計解析者 | 3 | 5 | 1 | |
インフラ・基盤構築系 | データエンジニア | 2 | 3 | 5 |
データアーキテクト | 3 | 3 | 5 |
このように、どのスキルに重きを置いた業務をするかによって違います。
そして毎回「244」の人っていうのも変なので「機械学習エンジニア」とか呼ぶのには同意ですが、少なくとも「データサイエンティスト」と言いながら求人側は「データアナリスト」を求めていて、応募者は「データアーキテクト」でみたいなミスマッチは避けたいですね。
また、AIエンジニアでもよりビジネスよりのスキルを重視される場合などこの重みの付け方にばらつきもあるでしょう。
ここまで整理しておけば
- ディープラーニングに憧れる
- 3ヶ月であなたもデータサイエンティストに!の講座受講しました!
- よし我が社にもデータサイエンティストが入ったぞ
- ・・・
- ルールベース云々で構築したOOさんがいなくなったので見て
- 基幹システムからSQLでデータを云々
- 需要予測をやりたい精度99%で
- AI活用したい課題?データ?あなたが専門家なんだからやってよ(丸投げ)
- 部長、彼データサイエンティストなのに何もできないんですが、話が違います
- 部長、深層学習の課題とデータはないんですか?話が違います
みたいなことが避けられると思います。
- もちろんこの方法でも限界があります。
- 例えばデータサイエンス力の「5」が何を意味するのか?深層学習による画像解析のスペシャリストで5なのか、数理統計モデルのスペシャリストで5なのか、データサイエンス力だけみても幅広いのでより細分化する必要があります。
- 社内で提案すると上記のような批判が出て結局元の未定義「データサイエンティスト」でみんなが困るに戻りがち。少なくとも自分だけは3スキルの重みのイメージを持ちましょう
- そしてより細かくはスキルチェックシートで確認してきましょう
4. 資格とその活用
「データサイエンティスト」に資格は必要ありません。求人の時にあれば優遇の項目に、統計検定を求められていることがあるくらいかなと思います。
でも資格はガイド役にもなるので少しだけ。
統計検定
- 「データサイエンティスト」とフォーカスが被るところもあるものの正直違う方向を向いています。
- 統計検定2級が求人欄に書いてあることが多いですが
- 求人内容には機械学習云々とあると「わかってないな」と思ってしまいます。
- 統計検定2級の試験範囲に機械学習要素が全くないためです
- 統計検定準1級で少し機械学習要素がふりかけ程度にあり、統計検定1級になるとゴリゴリの数理統計学です。
- 統計学と機械学習は違います
- 機械学習をメインとしたデータ分析の中で統計学を使う場面は多々あるので、その基礎力を試すという意味での統計検定なら意味がありますが、多くの場合は統計学と機械学習をごっちゃにしていて危険です
- ただ目標としている求人欄に統計検定O級とあるならばそれをとるのは次善策としてはあり
- 統計検定なら「データサイエンス基礎(DS基礎)」「データサイエンス発展(DS発展)」「データサイエンスエキスパート(DSエキスパート)」を
- こちらの試験範囲はデータサイエンス力(≒機械学習領域)を測るものです
- 難点としては最近できたばかりなので、求人側の人が知らないため武器になりづらいかもです
- でも自分のデータサイエンス力のガイドにするにはこの資格が良いです
- 統計検定O級ではなく、データサイエンス基礎・発展・エキスパートに注目!
日本ディープラーニング協会 G検定、E検定、Generative AI test
統計検定の次に有名な資格ですかね。求人側にも浸透してきた感がありますね。
- G検定
- 深層学習について、理論の基礎の基礎、活用例、法倫理・リスクの注意点などを問うものです
- 一定以上の社員には全員必須という会社も出てきており、社内の共通認識を得るための物差しとしては良いのかも
- エンジニアとしては不要かなと思っていたのですが、ここまで有名になると取っておいた方が良いのかも(と遅ればせながら2024年に私も取りました)
- E資格
- 深層学習の実装能力。教育プログラムを受けて試験を受けるものですね
- 正直これはわかりません。私が深層学習実装をほとんどしないので
- 機械学習エンジニアなどを目指すならば事実上深層学習の実装が多くを占めるのでありかもですね
- Generative AI test
- G検定の生成AI部分を抜き出した感じのテスト。資格よりチェックテスト的位置付けでまだ社会的知名度はないかもですが、これだけの生成AI隆盛を見ますと、「データサイエンス」を目指すエンジニアならめっちゃ簡単なのでつい勢いで取っても良いかも
データサイエンティスト協会 DS検定
- スキルチェックリストのところの検定なので期待していますが、まだリテラシーレベルしかなく
- まぁ入り口としては良いのかも
その他
- ベンダー、教育組織、その他がいろいろ出してますが、知名度がなくとも偏りがなければガイド役にはなりますが、正直???
- 取るとしたら、特にエンジニアリング力を重きに置く場合何らかのクラウドサービスを軸にすると思うので、Microsoft/Azure, Amazon/AWS, Google/GCP, Databricks, ...などのベンダー資格はありかなと思います
5. いよいよ、ロードマップを
AsIs(現状)-ToBe(理想)
スキルチェックリストで現状を知ろう
ビジネス力・データサイエンス力・データエンジニアリング力の自分の現状を知りましょう
「スキルチェックリスト ver.5」を用いてまず自分の現状を知りましょう。結構スキルリストが膨大です。でもこれは一回やった方がいいです。自分がイメージしていたものとかなり違う・全く知らない項目がたくさん見つかるはずです。
全てを身につけるのは無理です。でも
- 世の中ではこういうスキルも「データサイエンティスト」に求められているのだな
- 自分はここができて、ここができないな
を知ることがロードマップの第一歩です。
目指す理想を決めよう
ここまでくると「データサイエンティスト」を目指すのではなく、
- ビジネス力2、データサイエンス力4、データエンジニアリング力4 を自分は目指す
- こう言うのを世の中では「機械学習エンジニア」と呼ぶのだな
- ビジネス力はOOOとXXXにフォーカス
- データサイエンス力はAAAとBBBにフォーカス
- データエンジニアリング力はCCCとDDDにフォーカス
などとわかってくるはずです。
タイムスケジュールを
「いつかなりたいなー」は絶対ダメです。
粒度はケースバイケースですが、
- 現状
- 半年後
- 1年後
- n年後
- X年後の理想
くらいは描いた方が良いです。
ここまで来て、初めてロードマップなのかなと思います。
やっと、ロードマップ
いい、言うよ。
自分で探せ! Web記事もChatGPTもある。
だって、汎用のロードマップはない。みんなそれぞれ違うし、目指す理想も違うから。
個別に相談を受けられるならAsIs-ToBeを聞き出してアドバイスできますが、以下の質問サイトにたまに回答しているのでそちらに質問いただくか、
- Qiita質問
- Teratail
- Menta(これは有料)
何ならTwiiter
に直接ご質問いただければ短いものなら答えます。
まぁ、1つ言えるなら、やりたいことからやろう。
深層学習での画像解析に興味を持ったならそこから。ビジネス力が必要だからって、いきなり専門書を読んだって頓挫しますよね。
スキルリストを塗りつぶす感じで、得意なところを積み上げ、でも弱みだけれど必要なところを意識して。自信がつけば弱みのところも目を向けられるようになるでしょうし。
とは言うものの、ロードマップの軸となるようなものはいくつかあるのかなと思います。
- 東大松尾・岩澤研が示すロードマップ
- 日本の最先端の研究室かつ、スタートアップなどビジネスにも目を向けている
- 他のロードマップのように「データサイエンティスト」をごっちゃに扱わず、研究者、データサイエンティスト、エンジニア(AIシステム開発)、ビジネス(経営者・コンサル・企画)ときちんと職種分けしたロードマップとなっている
- 渋谷駅前で働くデータサイエンティストのブログのTJOさんの記事
- 「データサイエンティスト」「機械学習エンジニア」「データアーキテクト」のスキルを比較、他
- 職種分けを意識されている、別記事でビジネスに役立たないデータサイエンスは間違いと指摘されている。某先端企業のデータサイエンティストとしてTJOさんの記事は必須かなと思います
- roadmap.sh
- IT系の職種のロードマップ集
- AI and Data Scientist, Data Analystだけ(Data Structures & Algorithmsがデータエンジニアに関係するかも)ですが。
- 細かくやるべきことがあるので、参考になると思います。
6. aokikenichiはどうやってきたのよ?
に書いてます。
- 2015年くらいからデータ分析の業務を始めた
- その後すぐディープラーニングの波が来た
- やりたかったですが、これ研究と実装の距離が近くて早すぎる若い人には絶対に負ける
- よし、俺は地味な従来型の機械学習など、顧客の困りごとに引き出しの多い人になろう
- 案の定、何でもかんでもディープラーニングとなり、「それ、ディープラーニングじゃなくてOOでやった方が良いですよ」となる
- IT企業のため、ITコンサルタントはいるけれでデータ分析についてはいないのでビジネス力は意識している
- 案の定ネットの記事でも「データサイエンティスト」のスキルとしてビジネス力は忘れられがち
- 常々布教している
- IT企業のため、データエンジニアリングの人は多くほぼお任せ(たまにSQLを書くくらい)
- 目指しているのは、
くらいなところです。データアナリスト、データストーリーテラーみたいな感じですかね。
私のやり方でよければ推奨は
- ビジネス力
- 何をするにもロジカルシンキングは最低限重要
- ロジックツリー、MECEと聞いて何もわからないってことならばすぐに勉強した方がいい
- データサイエンス力
- まずは分類・回帰・クラスタリング・次元削減を体に馴染ませること
- 重回帰、ロジスティック回帰、回帰木、決定技、サポートベクターマシン、ニューラルネットワーク、アンサンブル学習(バギング、ブースティング)、Elasticnet、PCA、階層型クラスタリング、K-means、あたりの基本的な手法の簡単な解説とコーディング例が試せるもので一通りを試す
- 私はRで入ったので『Rによるデータサイエンス(第2版)』の初版をコード写経した
- Pythonならば『Python機械学習プログラミング[PyTorch&scikit-learn編]』あたりが評判いいんですかね。私はこの初版はやりました。
- この意味でなら、動画講義や学校に行ってもいいと思います
- 重回帰、ロジスティック回帰、回帰木、決定技、サポートベクターマシン、ニューラルネットワーク、アンサンブル学習(バギング、ブースティング)、Elasticnet、PCA、階層型クラスタリング、K-means、あたりの基本的な手法の簡単な解説とコーディング例が試せるもので一通りを試す
- この後で、必要や関心に応じ下記などを深める
- 深層学習
- 自然言語処理
- 画像解析
- 時系列解析
- 因果推論
- 深層学習
- まずは分類・回帰・クラスタリング・次元削減を体に馴染ませること
- データエンジニアリング力
- あまり私が言えることはない
- SQLはやっておくといいかも
7. この記事を読み終わったらすぐやろう 〜次にやるべき3ステップ〜
-
1. DS協会のスキルチェックリストをダウンロードして自己診断する
-
2. AsIs-ToBeを描いて、自分のスキル比重を可視化する
注力サブスキル 現状 1年後 理想 ビジネス力 データサイエンス力 データエンジニアリング力 - (データアナリストなどの細分職種)____________________ 王に俺はなる!
- 注力サブスキル
- ビジネス力:「ロジカルシンキングは絶対」など
- データサイエンス力:「深層学習による画像解析」など
- データエンジニアリング力:Azure・AWS・GCP等のクラウドプラットフォームなど
-
3. 目標職種に応じた学習ロードマップを作成し、初めの教材を1つ選んで取り組む
-
________________になるため_____________記事の________________ロードマップに取り組む
- 最初の教材を______________として____年__月__日までにやり切る
- 無理なら仮置きロードマップでも良いと思う。学習が進めばまた見える世界もある
-
________________になるため_____________記事の________________ロードマップに取り組む
まとめ
- 「データサイエンティスト」をきちんと定義し、相手が言っているのは何か、自分が言いたいのは何かを整理しよう
- ビジネス力・データサイエンス力・データエンジニアリング力の比重を意識すると整理しやすい
- 自分の現状を知ろう、目指したい理想を決めよう
- そこからロードマップが得られる
- さぁ、3ステップを
参考aokikenichiの関連記事
- データサイエンティストの基礎知識習得のための書籍紹介
- DS協会スキルチェックリスト「ビジネス力」「データサイエンス力」スキル項目別の推奨書籍
- 「データエンジニアリング力」は私が弱いので今のところ作成なし
- roadmap.shのData Analyst, AI and Data Scientist ロードマップと対応書籍紹介
- 世の中の記事では「ビジネス力」が蔑ろにされすぎていると考えているので、それはダメですよの記事
- 数学についても「微積+線形代数が必要?それ数学者じゃん」みたいな記事も見られるので整理