元ネタについて
「データサイエンティストに求められるスキルは百家争鳴で、当事者のデータサイエンティストも雇う企業側も手探り状態というのが一般的な認識」というのは、もう昔の話になっています。
今では、データサイエンティストに何が求められているのかキッチリと体系化され始めています。
データサイエンティスト協会が昨年の11月(2015年11月20日)に、データサイエンティストのスキルチェックリストの第一弾を発表したのは記憶に新しいです。
データサイエンティストのスキルチェックリスト(PDF版)
Qiitaを検索したところ、このスキルチェックリストについて言及したエントリーは今のところ見当たらないようですので、
せっかくのチャンスですから、頭の中の整理、おさらいを兼ねて、このスキルチェックリストを元ネタにして記事のアップをしていきたいと思います。
データサイエンティストのスキルチェックリスト(2015年版)の概要
データサイエンティストが備えるべきスキルは、次のように4段階にわけて構成・整理されています。
1.業界を代表するレベル :Senior Data Scientist(★★★★)
2.棟梁レベル :Full Data Scientist(★★★)
3.独り立ちレベル :Associate Data Scientist(★★)
4.見習いレベル :Assistant Data Scientist(★)
スキルの分類は次の3つとなっています。
- ビジネス力 : 課題背景を理解した上で、ビジネス課題を整理し、解決する力
- データサイエンス力:情報処理、人工知能、統計学などの情報科学系の知恵を理解し、使う力
- データエンジニアリング力:データサイエンスを意味のある形に使えるようにし、実装、運用できるようにする力
そして、各スキルの分類を構成する項目は次のようになっています。
全体で422項目とかなり本格的なボリュームです。
スキル分類 | 項目数 |
---|---|
データサイエンス力 | 180項目 |
データエンジニアリング力 | 119項目 |
ビジネス力 | 123項目 |
合計 | 422項目 |
それでは各スキル分類を構成するカテゴリを見ていきます。
データサイエンス力
データサイエンス力を構成するカテゴリは次のようになっています。
カテゴリ名 | 項目数 |
---|---|
統計数理基礎 | 14 |
予測 | 16 |
検定/判断 | 11 |
グルーピング | 13 |
性質・関係性の把握 | 11 |
サンプリング | 4 |
データ加工 | 8 |
Data visualization | 36 |
機械学習 | 19 |
時系列分析 | 7 |
言語処理 | 10 |
画像処理 | 6 |
音声処理 | 5 |
パターン発見 | 3 |
グラフィカルモデル | 3 |
統計数理応用 | 4 |
シミュレーション/データ同化 | 3 |
最適化 | 7 |
合計 | 180 |
Data visualization(=データの視覚化)の項目が突出して多いことが分かります。
データサイエンスの現場において、データを視覚化することが業務を進める上で重要視されていることが数字に表れています。
確かに、視覚化することで人間の直感を動員できるようになるのは大きなポイントです。
次に項目数が多いのが機械学習です。これは納得感がある項目数と思います。
データの種類や性質に応じた機械学習を適用する、または複数種類の機械学習を組み合わせることが重要です。
予測、統計数理処理の基礎も順当な項目数ではないかと思います。
(全般的に見て)重要であるもの、頻繁に使う傾向にあるものほど項目数が多くなっているように思います。
データエンジニアリング力
データエンジニアリング力を構成するカテゴリは次のようになっています。
システム・インフラ関連、プログラムを用いた各種加工処理に関連するカテゴリです。
カテゴリ名 | 項目数 |
---|---|
環境構築 | 19 |
データ収集 | 12 |
データ構造 | 11 |
データ蓄積 | 16 |
データ加工 | 13 |
データ共有 | 13 |
プログラミング | 20 |
ITセキュリティ | 15 |
一番項目数が多いのはプログラミングです。 | |
やはりコーディングスキルは大事です。エンジニア上がりの方は大活躍です。 | |
ちょっとしたコーディングを駆使しながら小手調べを繰り返し、ゴリゴリと探索を進めていける便利なスキルです。 | |
コーディングスキルにちょっとした統計のスキルが掛け合わさるだけでだいぶ違ってきます。 | |
環境構築・データ蓄積も項目数が多いです。 | |
蓄積するデータが大量になる場面が多いと思われるので、分散ストレージ、分散加工処理が必要とされると思います。 | |
Hadoopなどの分散処理のインフラ構築は重要です。インフラエンジニアは偉大です。 | |
データは取扱注意のものが多いです。 | |
緊張感を持ってデータを扱わないと危険ですから(最悪の場合は、ニュースで世間を騒がせることに...)、セキュリティ面の項目数も多くなるのは必然と思います。 | |
ビジネス力を構成するカテゴリ
ビジネス力を構成するカテゴリは次の通りです。
データ分析プロジェクトの戦略に関わるもので構成されています。
カテゴリ名 | 項目数 |
---|---|
行動規範 | 11 |
論理的思考 | 18 |
プロセス | 20 |
データの理解・検証 | 26 |
データ入手 | 6 |
意味合いの抽出、洞察 | 10 |
解決 | 4 |
事業に実装する | 8 |
活動マネジメント | 20 |
最も項目数が多いのが「データの理解・検証」です。 | |
生データにざっと目を通して、直感的にこれはどういうデータなのか把握して、作戦を立てる力は必要です。 | |
「多分、こんな感じになっているんじゃないか?」と仮説を立てて、それをたたき台にしてゴリゴリと分析を進めていく力も重要と思います。 | |
この辺りは、明文化するのが難しく、直観力など属人的な面が強いかもしれません。 | |
データと格闘する経験を通して、直観力を養いながら身につけていくことになるのでしょうか。 | |
活動マネジメントは、まさにプロジェクトマネジメントですね。 | |
チームメンバーとの向き合い、顧客との向き合い、テーマこそ違えども、多くの開発プロジェクトのマネジメントと共通している部分が多いように個人的には思います。 | |
プロセスの項目も多いです。 | |
分析プロジェクトの進め方、それも戦略の立て方に関わる項目が多いです。 | |
どういう問題を解決すべきなのか見えてくると、分析プロジェクトが進み始めるなという実感が出てきます。 | |
どういう問題に取り組むのか、テーマは何なのかが決まらないうちに分析作業を本格的に進めるのは危ないと個人的には思います。 | |
論理的思考も多いです。 | |
ロジカルシンキングですね。「データの理解・検証」は、人間の持つ直感という面が色濃い一方、こちらはロジックでキッチリカッチリです。 | |
直感の力とロジックの力の両輪がうまく回ることが重要というわけですね。 | |
まとめ
ざっと駆け足でデータサイエンティストに求められるスキルリストを見てきました。
後で見直して加筆修正するかもしれませんが、大づかみとしてはこのような感じではないでしょうか。
スキルリストに目を通すと、定義がモヤモヤとしていたものがスッキリと晴れていきます。
こうやって体系化することは大事ですね。
このスキルリストは、このエントリーだけで終わらせるにはあまりにももったいないネタです。
各項目一つ一つが光り輝く価値を放っているので、個別項目のエントリーにも取り組みたいと思います。
ここまで読んでいただきありがとうございました。