はじめに
標題の通り、どんなスキルレベルがあるのか確認
https://www.datascientist.or.jp/common/docs/skillcheck.pdf
統計数理基礎;
https://qiita.com/iwasaki_kenichi/items/25d55bcd872121b1015c
#予測
|No|スキルカテゴリ|スキルレベル|サブカテゴリ|データサイエンス力:チェック項目|必須スキル|
|:-:|:-:|:-:|:-:|:-:|:-:|:-:|
| 1 |予測|★ |予測|単回帰分析について最小二乗法、回帰係数、標準誤差の説明ができる| |
| 2 |予測|★★ |予測|重回帰分析において偏回帰係数と標準偏回帰係数、重相関係数について説明できる| |
| 3 |予測|★★ |予測|重回帰や判別を実行する際に変数選択手法の特徴を理解し、適用できる| |
| 4 |予測|★★ |予測|ニューラルネットワークの基本的な考え方を理解し、出力される「ダイアグラム」の入力層、隠れ層、出力層の概要を説明できる| |
| 5 |予測|★★ |予測|重回帰分析において多重共線性の対応ができ、適切に変数を評価・除去して予測モデルが構築できる |○|
| 6 |予測|★★ |予測|決定木分析においてCHAID、C5.0などのデータ分割のアルゴリズムの特徴を理解し、適切な方式を選定できる| |
| 7 |予測|★★ |予測|線形回帰分析が量的なを予測するのに対して、ロジスティック回帰分析は何を予測する手法か(発生確率予測など)を説明でき、実際に使用できる| |
| 8 |予測|★★★|予測|予測アルゴリズムに応じ、目的変数と説明変数に対する必要な変数加工処理が設計、実施できる| |
| 9 |予測|★★★|予測|予測モデル構築において頑健性を維持するための具体的な方法を設計、実施できる| |
| 10 |予測|★★★|予測|過学習(正則化)の意味を説明ができ、回避する方法の設計・実施ができる| |
| 11 |予測|★★★|予測|尤度と最尤推定についての説明できる(尤度関数、ネイマンの分解定理、順序統計量)| |
| 12 |予測|★★★|予測|(モデルに交互作用が含まれていないとき)回帰パラメータとオッズ比の関係について説明できる| |
| 13 |予測|★★★|予測|ロジスティック回帰分析を行う際に、最小2乗法ではなく最尤法を使う際の利点(回帰誤差が近似的に正規分布しなくても適用できるなど)を説明し、適用することができる| |
| 14 |予測|★★★|予測|目的(予測・真のモデル推定など)に応じて、適切な損失関数とモデル選択基準(AIC(赤池情報量規準)、BIC(ベイズ情報量規準)、MDL(最小記述長)など)を選択し、モデル評価ができる| |
| 15 |予測|★★★|予測|データと分析要件から、モデル精度のモニタリング設計・実施と劣化が見込まれるモデルに対するリモデルの設計ができる| |
| 16 |予測|★★★|予測|分析要件に応じ、量的予測のためのモデリング手法(重回帰、決定木、ニューラルネットワークなど)の選択とパラメータ設定、結果の評価、チューニングを適切に設計・実施・指示できる| |
おわりに
統計数理基礎は、ほとんど必須スキルでしたが、予測系はそうでもない感じですね。
必須スキルとされているのは、5番目の
重回帰分析において多重共線性の対応ができ、適切に変数を評価・除去して予測モデルが構築できる
のみでした。
各組織、「ビジネス(business problem solving)力」 「データサイエンス(data science)力」 「データエンジニアリング(data engineering)力」
と3つに別れて構成されていると思うのですが、この求められているスキルとは、どの担当の人がどの程度求められるのか、いまいちわかりにくいです。
16番目のモデリング手法の選択については、
https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
上記サイトにフローチャートがのっています。