注意:本記事に含まれている所感は個人的なものであり、所属組織の見解などとは関係がありません
2023年10月23日にITSS+「データサイエンス領域」2023改訂版がIPAのHPより公開されました。
業務で人材育成やってるので、最新版も見なきゃと思いつつチラ見しながら早半年...
ちょうどスキル整理する機会ができたので、今回は2021年度と比較しながら、最新版の特徴を見て感じたことなどまとめてみたいと思います。
そもそも、ITSS+ 「データサイエンス領域」ってなに?
↓の絵、「データサイエンティストになるための必要なスキルって?」という話があるとよく出てくる絵なんですが、どこかで見たことありますでしょうか。
引用元:「データサイエンティストのためのスキルチェックリスト/タスクリスト概説」第二版より抜粋
これをベースにスキルチェックリストがまとめられているのがITSS+「データサイエンス領域」になります。
ちなみに、本家のページを見ると、
「データサイエンス領域」は、企業等の業務において大量データを分析し、その分析結果を活用するための一連のタスクとそのために習得しておくべきスキルを取りまとめています。
と書かれています。
2年に1度更新されており、2019年に初めて公開されたので今回で3版目となります。
上記ページで公開されている資料としては、以下2種類です。
ちなみに、2024/5/2時点で、「データサイエンティストのためのスキルチェックリスト/タスクリスト概説」の最新版はまだ出ていないようです。
- スキルチェックリスト、タスクリストのExcel
- Excelのリンクは2つありますが、「ITSS+「データサイエンス領域」2023改訂版」はスキルリストとタスクリストが入っており、スキルチェックリストのリンクはスキルチェックリストのみですが、スキル定義について詳細が書かれています
- データサイエンティストのためのスキルチェックリスト/タスクリスト概説
- スキルチェックリストとタスクリストをどう読み解くかの公式ガイドブック
誰が書いたの?
スキル定義とタスク定義で若干違います
- スキル定義:データサイエンティスト協会 スキル定義委員会がまとめたスキルチェックリストを活用
- タスク定義:IPAとスキル定義委員会が共同でタスクリストを整理
今回確認した資料いろいろ
今回読み込むにあたり、概説がまだ公開されていなかったので、データサイエンティスト協会のスキル定義委員会が発表したときの資料やYoutubeを見てみました。
- 公式資料(公式ページからダウンロード)
- ITSS+「データサイエンス領域」2023改訂版
- 「データサイエンティストのためのスキルチェックリスト/タスクリスト概説」第二版
- 一般社団法人データサイエンティスト協会が公開しているスキルチェックリスト
- データサイエンティスト協会の資料
- スキルチェックリスト新旧比較版
- データサイエンティスト協会 10th Symposiumのスキル定義委員会活動報告資料
- 上記発表時の動画
大きく変わっていたこと(構成面)
他にも変更点は沢山あるのですが、個人的にインパクトのあった変更点についてリストアップしたいと思います。
タスクリストにAI利活用タスクが追加
今回はこれが一番大きなところかとは思います。
引用元:ITSS+「データサイエンス領域」2023改訂版より抜粋
ちなみに、もともとのデータサイエンスのタスクは以下のような図(こちらもまだ当てはまるプロジェクトは出てくるという想定ではあります)
上記AI利活用タスクに紐づくAI利活用スキルはこれまでの3つのスキル(データサイエンス力、データエンジニアリング力、ビジネス力)から抜粋しているのですが、活動報告会によると、「プロとして、AI利活用プロジェクトを進めるには何が必要か」という視点で整理したそうです。
なので、例えば生成AIでも最近よくある「〇〇プロンプト」を知っているだけではだめで、プロなら企画もしっかりできて、さらに技術も必要という考え方が入っており、「利活用スキル」「背景理解・対応スキル」という2つに分類してスキルが整理されていました。
データサイエンス力のスキルカテゴリが18個から10個に整理
データサイエンス力のスキルカテゴリ(大分類的などころ)が今回大幅に整理されました。
並べてみるとこんな感じです。
個人的には今まで以下のような印象を受けていたのですが、ちょうどその気になっていたあたりに改修が入ったようです。
- 基礎数学部分に入っている部分が幅広い
- 分析の手法ごとで種類が細かい
- 音声認識って自然言語処理も行っているような気がするが…
ただ、非構造化データ処理については、スキルカテゴリだけでチェックした場合、ぱっと見て、どの種類のデータ(画像とか音声とか)について詳しい人か分からないということはありそうだなという印象を受けました。(まあ、その下のサブカテゴリを見れば良いのですが)
データエンジニアリング力のクラウドに関する項目の増加
データエンジニアリング力のスキルカテゴリ「環境構築」で3項目追加されていますが、いずれもクラウドを使った設計ができることを問うものになっていました。
また、その他既存の項目にも「クラウド」という言葉や、クラウドサービスの名称が追加されていました。
活動報告会動画でも担当の方が今後のAIシステムの構築にクラウドが欠かせなくなることを考慮したとおっしゃっていたので、この辺りのことなのかなという気がしました。
データサイエンス力からビジネス力やデータエンジニアリング力への項目の移設
- データサイエンス力からビジネス力への移設:4項目
- データエンジニアリング力への移設:2項目
となっています。
ビジネス力へは基本的な統計情報を理解する部分、データエンジニアリング力へはAPIを取り扱う部分が移設されていました。
統計の専門的なところはデータサイエンス力として残っていますが、ビジネス力へ移設された分は今後ビジネス寄りの人にも知っておいてほしいという部分として整理されたように思います。
大きく変わっていたこと(技術キーワード面)
こちらも他に変更点が沢山あるのですが、個人的にインパクトのあった変更点についてリストアップしてみます。
やっぱり時代は生成AI
今となっては当たり前の状況ではありますが、生成AIの項目が大幅に追加となりました。
- データサイエンス力:「生成」スキルカテゴリが追加(14項目)
- データエンジニア力:「生成AI」スキルカテゴリが追加(13項目)
- ビジネス力:スキルカテゴリは増えてないが、「行動規範」や「着想・デザイン」に生成AIに関する話を追加
いかにうまく使うか、使ってもらえるように整備するかというところが重点的に問われている印象でした。
分析の評価に関する項目が整理
他の項目ももちろんいろいろ整理されているのですが、データサイエンス力のスキルカテゴリ「モデル化」、サブカテゴリ「統計的評価」については、以前は評価方法が羅列されている印象だったのですが、
かなり専門的な項目である★3として位置づけられてきた項目が★2に降りてきたり、
★1の評価方法の羅列となっていたのが、★1と★2で段階的な問いとなっていたり
と整理され、スキルを図りやすくなったように見えました。
データ加工の「数十万レコードのデータ」が「表計算ソフトのデータファイル数」に変更
個人的に、ほーっと思ったところ点だったのですが、
2021年バージョンを見たときに数十万レコードのデータを何で扱うとこれは満たしたといえるのだろうかという疑問があったので、具体的にしてもらえた感じです。
所感
この2年間で出てきたワードが盛りだくさん
Attention機構の細かい手法やネットワーク分析などここ最近でよく聞くようになった技術用語がいろいろ盛り込まれていました。また、モデルの利活用として、異常検知だけだったところにレコメンドモデルも入ってきたのは時代の流れを感じます。
生成AIが出てきて、「AIを使う」ことが注目されてきた?
スキルチェックリストの2年に一度の更新と生成AI登場が被ったのは偶然ですが、誰でも簡単に使えるAIの登場でスキル定義委員会も大混乱の中、更新検討されたようでした。
スキルカテゴリのデータサイエンス力の「生成」とデータエンジニアリング力の「生成AI」は単語の揺れ?何か意味がある?
基本的にスキル領域別にスキルチェックする想定で作られているので気にしなくてもよいのかもしれませんが、全部並べてみたい自分にはちょっと工夫が必要そうです。
さいごに
キーワードを調べるだけでも勉強になる
このスキルチェックリストにあるものは、今必要とされている知識やこれからより重要になりそうな知識が入っているようです。
2021年度版を見ていた時もそうだったのですが、今回もキーワードをみて「これってどういう意味だろう?」と調べるだけでも勉強になりそうなので、ぼちぼち調べていく予定です。
勉強だけでなく、自分の業務でも活用したい
今回ITSS+「データサイエンス領域」2023年度を読んでみて、新たに必要になりそうな技術も色々見えてきたので、業務で扱っている研修教材もアップデートしていけたらなと思います。