データサイエンティスト協会スキルチェックリストver.3.00は正直細かすぎると思う。どこから手を付けていっていいかわからない。
このうち「データサイエンティスト」に必要とされるスキル対応していると思われる本をリストアップしました。
注:私はデータ分析を業務とはしておりますが、Rがメイン、Pythonは教科書をなぞった程度。深層学習はチュートリアル程度です。画像・音声処理は実施したことがなく、N/Aです。その他手薄な点や誤りもあると思うのでご指摘ください。
No. | Sub No. | スキルカテゴリ | スキルレベル | サブカテゴリ | チェック項目 | BZ | DE | 必須スキル | 理論 | R実装 | Python実装 |
---|---|---|---|---|---|---|---|---|---|---|---|
1 | 1 | 基礎数学 | ★ | 統計数理基礎 | 順列や組合せを式 nPr, nCr を用いて計算できる | ◯ | 統計学入門 (基礎統計学Ⅰ) | ||||
2 | 2 | 基礎数学 | ★ | 統計数理基礎 | 条件付き確率の意味を説明できる | ◯ | 統計学入門 (基礎統計学Ⅰ) | ||||
3 | 3 | 基礎数学 | ★ | 統計数理基礎 | 平均(相加平均)、中央値、最頻値の算出方法の違いを説明できる | ◯ | 統計学入門 (基礎統計学Ⅰ) | ||||
4 | 4 | 基礎数学 | ★ | 統計数理基礎 | 与えられたデータにおける分散と標準偏差が計算できる | ◯ | 統計学入門 (基礎統計学Ⅰ) | ||||
5 | 5 | 基礎数学 | ★ | 統計数理基礎 | 母(集団)平均と標本平均、不偏分散と標本分散がそれぞれ異なることを説明できる | ◯ | 統計学入門 (基礎統計学Ⅰ) | ||||
6 | 6 | 基礎数学 | ★ | 統計数理基礎 | 標準正規分布の分散と平均の値を知っている | ◯ | 統計学入門 (基礎統計学Ⅰ) | ||||
7 | 7 | 基礎数学 | ★ | 統計数理基礎 | 相関関係と因果関係の違いを説明できる | ◯ | 統計学入門 (基礎統計学Ⅰ) | ||||
8 | 8 | 基礎数学 | ★ | 統計数理基礎 | 名義尺度、順序尺度、間隔尺度、比例尺度の違いを説明できる | ◯ | 統計学入門 (基礎統計学Ⅰ) | ||||
9 | 9 | 基礎数学 | ★ | 統計数理基礎 | 一般的な相関係数(ピアソン)の分母と分子を説明できる | ◯ | 統計学入門 (基礎統計学Ⅰ) | ||||
10 | 10 | 基礎数学 | ★ | 統計数理基礎 | 5つ以上の代表的な確率分布を説明できる | ◯ | 統計学入門 (基礎統計学Ⅰ) | ||||
11 | 11 | 基礎数学 | ★ | 統計数理基礎 | 二項分布の事象もサンプル数が増えていくとどのような分布に近似されるかを知っている | ◯ | |||||
12 | 12 | 基礎数学 | ★ | 統計数理基礎 | 変数が量的、質的どちらの場合でも関係の強さを算出できる | ◯ | 統計学入門 (基礎統計学Ⅰ) | Rによるデータサイエンス | Python機械学習プログラミング | ||
13 | 13 | 基礎数学 | ★ | 統計数理基礎 | ベイズの定理を説明できる | ◯ | 統計学入門 (基礎統計学Ⅰ) | ||||
14 | 14 | 基礎数学 | ★★ | 統計数理基礎 | ベイズ推論が学習や予測、モデル評価などをすべて確率分布上の計算問題として扱っていることにより、これらの要素を確率分布として扱わない手法と比べ、どのようなメリットを生み出しているか理解している | ||||||
15 | 15 | 基礎数学 | ★★ | 統計数理基礎 | 自己情報量やエントロピーの意味について説明できる | ||||||
16 | 16 | 基礎数学 | ★★ | 統計数理基礎 | カルバック・ライブラー情報量(KL divergence)、フィッシャー情報量の意味や利用方法について説明できる | ||||||
17 | 17 | 基礎数学 | ★★ | 統計数理基礎 | 尤度と最尤推定についての説明ができる(尤度関数、ネイマンの分解定理、十分統計量) | ||||||
18 | 18 | 基礎数学 | ★ | 線形代数基礎 | ベクトルの内積に関する計算方法を理解し線形式をベクトルの内積で表現できる | 統計学のための数学入門30講 | |||||
19 | 19 | 基礎数学 | ★ | 線形代数基礎 | 行列同士、および行列とベクトルの計算方法を正しく理解し、複数の線形式を行列の積で表現できる | 統計学のための数学入門30講 | |||||
20 | 20 | 基礎数学 | ★ | 線形代数基礎 | 逆行列の定義、および逆行列を求めることにより行列表記された連立方程式を解くことができることを理解している | 統計学のための数学入門30講 | |||||
21 | 21 | 基礎数学 | ★ | 線形代数基礎 | 固有ベクトルおよび固有値の意味を理解している | 統計学のための数学入門30講 | |||||
22 | 22 | 基礎数学 | ★ | 微分・積分基礎 | 微分により計算する導関数が傾きを求めるための式であることを理解している | 統計学のための数学入門30講 | |||||
23 | 23 | 基礎数学 | ★ | 微分・積分基礎 | 2変数以上の関数における偏微分の計算方法を理解している | 統計学のための数学入門30講 | |||||
24 | 24 | 基礎数学 | ★ | 微分・積分基礎 | 積分と面積の関係を理解し、確率密度関数を定積分することで確率が得られることを説明できる | 統計学のための数学入門30講 | |||||
25 | 1 | 予測 | ★ | 回帰/分類 | 単回帰分析について最小二乗法、回帰係数、標準誤差の説明ができる | ◯ | 統計学入門 (基礎統計学Ⅰ) | ||||
26 | 2 | 予測 | ★ | 回帰/分類 | 重回帰分析において偏回帰係数と標準偏回帰係数、重相関係数について説明できる |
人文・社会科学の統計学 (基礎統計学II) 実証分析のための計量経済学 |
|||||
27 | 3 | 予測 | ★★ | 回帰/分類 | 重回帰や判別を実行する際に変数選択手法の特徴を理解し、適用できる |
人文・社会科学の統計学 (基礎統計学II) 実証分析のための計量経済学 |
|||||
28 | 4 | 予測 | ★★ | 回帰/分類 | 重回帰分析において多重共線性の対応ができ、適切に変数を評価・除去して予測モデルが構築できる | ◯ |
人文・社会科学の統計学 (基礎統計学II) 実証分析のための計量経済学 |
||||
29 | 5 | 予測 | ★★ | 回帰/分類 | 線形回帰分析が量的な変数を予測するのに対して、ロジスティック回帰分析は何を予測する手法か(発生確率予測など)を説明でき、実際に使用できる | はじめてのパターン認識 | Rによるデータサイエンス | Python機械学習プログラミング | |||
30 | 6 | 予測 | ★★ | 回帰/分類 | 過学習を防止するためL1正則化(Lasso)、L2正則化(Ridge)、それらを組み合わせたElasticnetを適用できる | はじめてのパターン認識 | Rによるデータサイエンス | Python機械学習プログラミング | |||
31 | 7 | 予測 | ★★★ | 回帰/分類 | 予測対象データの分布をみて、分布形状に適合した計算式の非線形回帰モデルを構築できる | はじめてのパターン認識 | Rによるデータサイエンス | Python機械学習プログラミング | |||
32 | 8 | 予測 | ★★ | 回帰/分類 | ロジスティック回帰分析において回帰パラメータとオッズ比の関係について説明できる | はじめてのパターン認識 | Rによるデータサイエンス | Python機械学習プログラミング | |||
33 | 9 | 予測 | ★★ | 回帰/分類 | ロジスティック回帰分析を行う際に、最小2乗法ではなく最尤法を使う際の利点(回帰誤差が近似的に正規分布しなくても適用できるなど)を説明し、適用できる | はじめてのパターン認識 | Rによるデータサイエンス | Python機械学習プログラミング | |||
34 | 10 | 予測 | ★★ | 回帰/分類 | 対象の個体差やグループ毎の差が認められるデータに対し、階層ベイズモデルの構築ができる | RとStanではじめる ベイズ統計モデリングによるデータ分析入門 | |||||
35 | 11 | 予測 | ★★ | 前処理 | 予測アルゴリズムに応じ、目的変数と説明変数に対する必要な変数加工処理を設計し、実施できる | はじめてのパターン認識 | Rによるデータサイエンス | Python機械学習プログラミング | |||
36 | 12 | 予測 | ★★★ | モデル設計 | 予測モデル構築において頑健性を維持するための具体的な方法を設計、実施できる | ◯ | Kaggleで勝つデータ分析の技術 | Rによるデータサイエンス | Python機械学習プログラミング | ||
37 | 13 | 予測 | ★ | 評価 | ROC曲線、AUC(Area under the curve)、を用いてモデルの精度を評価できる | はじめてのパターン認識 | Rによるデータサイエンス | Python機械学習プログラミング | |||
38 | 14 | 予測 | ★ | 評価 | 混同行列(正誤分布のクロス表)、Accuracy、Precision、Recall、F値といった評価尺度を理解し、精度を評価できる | はじめてのパターン認識 | Rによるデータサイエンス | Python機械学習プログラミング | |||
39 | 15 | 予測 | ★ | 評価 | MSE(Mean Square Error)、MAE(Mean Absolute Error)といった評価尺度を理解し、精度を評価できる | ◯ | はじめてのパターン認識 | Rによるデータサイエンス | Python機械学習プログラミング | ||
40 | 16 | 予測 | ★ | 評価 | ホールドアウト法、交差検証(クロスバリデーション)法の仕組みを理解し、学習データ、パラメータチューニング用の検証データ、テストデータを作成できる |
はじめてのパターン認識 Kaggleで勝つデータ分析の技術 |
Rによるデータサイエンス | Python機械学習プログラミング | |||
41 | 17 | 予測 | ★ | 評価 | 時間の経過とともに構造が変わっていくデータの場合は、学習データを過去のデータとし、テストデータを未来のデータとすることを理解している | Kaggleで勝つデータ分析の技術 | |||||
42 | 18 | 予測 | ★★ | 評価 | 学習データ、検証データ、テストデータの分割時にデータの性質や目的に応じて、地理空間情報や様々な属性を考慮すべきか判断できる | ||||||
43 | 18 | 予測 | ★★ | 評価 | 不均衡データ(Imbalanced data)に対する分類モデルの評価指標を、Precision、Recall、F値、PR(Presicion Recall)曲線、マシューズ相関係数などを用いてビジネス課題に合わせて適切に設定できる | * | |||||
44 | 19 | 予測 | ★★ | 評価 | 機械学習におけるリークとは何か、それがもたらす問題について説明できる | Kaggleで勝つデータ分析の技術 | |||||
45 | 20 | 予測 | ★★★ | 評価 | リークの発生の有無を適切に判断し、対応できる(マスタデータが更新されており、本来予測時に使用できない未来の情報を含んでしまうパターン、本来は未知である評価データも含めて標準化するパターンなど) | * | Kaggleで勝つデータ分析の技術 | ||||
46 | 21 | 予測 | ★★★ | 評価 | 目的(予測・真のモデル推定など)に応じて、適切な損失関数とモデル選択基準(AIC:赤池情報量規準、BIC:ベイズ情報量規準、MDL:最小記述長など)を選択し、モデル評価ができる |
はじめてのパターン認識 Kaggleで勝つデータ分析の技術 |
Rによるデータサイエンス | Python機械学習プログラミング | |||
47 | 22 | 予測 | ★★★ | 評価 | データと分析要件から、モデル精度のモニタリング設計・実施と劣化が見込まれるモデルに対するリモデルの設計ができる | * | Kaggleで勝つデータ分析の技術 | ||||
48 | 1 | 検定/判断 | ★ | 検定/判断 | 点推定と区間推定の違いを説明できる | 統計学入門 (基礎統計学Ⅰ) | |||||
49 | 2 | 検定/判断 | ★ | 検定/判断 | 帰無仮説と対立仮説の違いを説明できる | 統計学入門 (基礎統計学Ⅰ) | |||||
50 | 3 | 検定/判断 | ★ | 検定/判断 | 第1種の過誤、第2種の過誤、p値、有意水準の意味を説明できる | 統計学入門 (基礎統計学Ⅰ) | |||||
51 | 4 | 検定/判断 | ★ | 検定/判断 | 片側検定と両側検定の違いを説明できる | 統計学入門 (基礎統計学Ⅰ) | |||||
52 | 5 | 検定/判断 | ★ | 検定/判断 | 検定する対象となるデータの対応の有無を考慮した上で適切な検定手法を選択し、適用できる | 統計学入門 (基礎統計学Ⅰ) | |||||
53 | 6 | 検定/判断 | ★★ | 検定/判断 | p値だけでは仮説やモデルの正しさを評価できないことを理解し、p値以外のアプローチ(信頼区間、信用区間、ベイズファクターなど)と併せて透明性の高いデータ分析や結果の報告ができる | * | ◯ | ||||
54 | 7 | 検定/判断 | ★★ | 検定/判断 | 検定力やサンプルサイズ、分布など対象のデータを考慮したうえで適切な検定手法を選択し、結果を評価できる(パラメトリックな多群の検定、クラスカル・ウォリス検定、カイ二乗検定など) | ||||||
55 | 1 | グルーピング | ★ | グルーピング | 教師あり学習の分類(判別)モデルと教師なし学習のグループ化(クラスタリング)の違いを説明できる | はじめてのパターン認識 | Rによるデータサイエンス | Python機械学習プログラミング | |||
56 | 2 | グルーピング | ★ | グルーピング | 階層クラスター分析と非階層クラスター分析の違いを説明できる | はじめてのパターン認識 | Rによるデータサイエンス | Python機械学習プログラミング | |||
57 | 3 | グルーピング | ★ | グルーピング | 階層クラスター分析において、デンドログラムの見方を理解し、適切に解釈できる | * | はじめてのパターン認識 | Rによるデータサイエンス | Python機械学習プログラミング | ||
58 | 4 | グルーピング | ★★ | グルーピング | 非階層クラスター分析において、分析対象となるデータの特性や分析目的に応じ、最も適切なクラスター数を決定できる | ◯ | はじめてのパターン認識 | Rによるデータサイエンス | Python機械学習プログラミング | ||
59 | 5 | グルーピング | ★★ | グルーピング | 階層クラスター分析における代表的なクラスター間距離(群平均法、Ward法、最長一致法など)の概念を理解し、目的に合致した最適な手法で分析できる | はじめてのパターン認識 | Rによるデータサイエンス | Python機械学習プログラミング | |||
60 | 6 | グルーピング | ★★ | グルーピング | クラスター分析を実行する際、各種距離関数(ユークリッド距離、マンハッタン距離など)を理解し、分析目的に合致した最適な距離計算で分析できる | * | はじめてのパターン認識 | Rによるデータサイエンス | Python機械学習プログラミング | ||
61 | 7 | グルーピング | ★★ | グルーピング | k-means法で得られる分析結果は局所最適解であるため初期値問題があることを理解し、適切な初期値を選択できる | はじめてのパターン認識 | Rによるデータサイエンス | Python機械学習プログラミング | |||
62 | 8 | グルーピング | ★★★ | グルーピング | 距離の公理を満たさない場合(1-cos類似度など)においてもクラスター分析を適切に実行できる | はじめてのパターン認識 | Rによるデータサイエンス | Python機械学習プログラミング | |||
63 | 9 | グルーピング | ★★ | グルーピング | k-meansやその派生方法、カーネルk-means、スペクトラルクラスタリングなどの違いを理解し、試行の中で最適な手法を選択・実行できる | はじめてのパターン認識 | Rによるデータサイエンス | Python機械学習プログラミング | |||
64 | 10 | グルーピング | ★★★ | グルーピング | 自己組織化マップ(SOM)、Affinity Propagation、混合分布モデル、ディリクレ過程混合モデルを理解し、試行の中で最適な手法を選択できる | ||||||
65 | 11 | グルーピング | ★★ | 異常検知 | 手元のデータの多寡やデータの再現性をふまえ、教師あり異常検知と教師なし異常検知の違いを適切に使い分けることができる | * | |||||
66 | 12 | グルーピング | ★★ | 異常検知 | Local Outlier Factor(LOF)、オートエンコーダ、One-class SVM(Support Vector Machine)、マハラノビス距離を用いた異常検知の手法を理解し、試行の中で最適な手法を選択・実行できる | ||||||
67 | 1 | 性質・関係性の把握 | ★ | 性質・関係性の把握 | 適切なデータ区間設定でヒストグラムを作成し、データのバラつき方を把握できる | * | ◯ | 統計学入門 (基礎統計学Ⅰ) | Rによるデータサイエンス | Python機械学習プログラミング | |
68 | 2 | 性質・関係性の把握 | ★ | 性質・関係性の把握 | 適切な軸設定でクロス集計表を作成し、属性間のデータの偏りを把握できる | * | ◯ | 統計学入門 (基礎統計学Ⅰ) | Rによるデータサイエンス | Python機械学習プログラミング | |
69 | 3 | 性質・関係性の把握 | ★ | 性質・関係性の把握 | 量的変数の散布図を描き、2変数の関係性を把握できる | ◯ | 統計学入門 (基礎統計学Ⅰ) | Rによるデータサイエンス | Python機械学習プログラミング | ||
70 | 4 | 性質・関係性の把握 | ★★ | 性質・関係性の把握 | 多重(質問間)クロス表などを駆使して、データから適切なインサイトを得ることができる | * | ◯ | 統計学入門 (基礎統計学Ⅰ) | Rによるデータサイエンス | Python機械学習プログラミング | |
71 | 5 | 性質・関係性の把握 | ★★ | 性質・関係性の把握 | 主成分分析と因子分析の違いや使い分けを説明できる | ◯ | 人文・社会科学の統計学 (基礎統計学II) | Rによるデータサイエンス | Python機械学習プログラミング | ||
72 | 6 | 性質・関係性の把握 | ★★ | 性質・関係性の把握 | 正準相関分析を説明、活用できる | ||||||
73 | 7 | 性質・関係性の把握 | ★★ | 性質・関係性の把握 | 因子分析における、因子負荷量や因子軸の回転について説明できる | 人文・社会科学の統計学 (基礎統計学II) | Rによるデータサイエンス | ||||
74 | 8 | 性質・関係性の把握 | ★★ | 性質・関係性の把握 | コレスポンデンス(対応)分析と数量化3類の類似点と違いを説明できる | ||||||
75 | 9 | 性質・関係性の把握 | ★★ | 性質・関係性の把握 | コンジョイント分析を自ら設計し、効用値と寄与率のグラフを描くことができる | ||||||
76 | 10 | 性質・関係性の把握 | ★★ | 性質・関係性の把握 | 適切な類似度を設定した上で、多次元尺度構成法を用いてポジショニングマップを描くことができる | Rによるデータサイエンス | |||||
77 | 11 | 性質・関係性の把握 | ★★★ | 性質・関係性の把握 | 空間的自己相関の手法を用いて空間的な類似性を数値化できる | ||||||
78 | 12 | 性質・関係性の把握 | ★★ | 性質・関係性の把握 | 行列分解(非負値行列因子分解[Nonーnegative Matrix Factorization:NMF]、特異値分解)を、目的に応じてパラメータを最適化して分析できる | はじめてのパターン認識 | |||||
79 | 13 | 性質・関係性の把握 | ★★ | 性質・関係性の把握 | ある変数が他の変数に与える影響(因果効果)を推定したい場合、その双方に影響を与える共変数(交絡因子)の考慮が重要であると理解している(喫煙の有無と疾病発症の双方に年齢が影響している場合など) |
実証分析のための計量経済学 調査観察データの統計科学―因果推論・選択バイアス・データ融合 |
効果検証入門 | ||||
80 | 14 | 性質・関係性の把握 | ★★ | 性質・関係性の把握 | ある変数の影響(因果効果)を推定したいがランダム化比較試験の実施が難しい場合、傾向スコアを用いることで観測されている共変量の影響を最小限に抑えることができる |
実証分析のための計量経済学 調査観察データの統計科学―因果推論・選択バイアス・データ融合 |
効 果検証入門 | ||||
81 | 15 | 性質・関係性の把握 | ★★★ | 性質・関係性の把握 | テンソル分解(非負値テンソル因子分解[Non-negative Tensor Factorization:NTF]、CP分解 [Canonical Polyadic Decomposition:CPD]、Tucker分解など)を、対象データの特性や目的に応じて適用する事で、より複合的な要因の性質や関係性について分析できる | ||||||
82 | 1 | サンプリング | ★ | サンプリング | 標本誤差とは何かを説明できる | ◯ |
統計学入門 (基礎統計学Ⅰ) 人文・社会科学の統計学 (基礎統計学II) |
||||
83 | 2 | サンプリング | ★ | サンプリング | 実験計画法の概要を説明できる | 人文・社会科学の統計学 (基礎統計学II) | |||||
84 | 3 | サンプリング | ★★ | サンプリング | 調査対象の母集団の規模・特性や調査コストに応じて、多段階抽出法や層化抽出法など適切な標本抽出方法を計画できる | 人文・社会科学の統計学 (基礎統計学II) | |||||
85 | 4 | サンプリング | ★★ | サンプリング | 属性数と水準数が決まれば適切な直交表を選択し実験計画ができる |
統計学入門 (基礎統計学Ⅰ) 人文・社会科学の統計学 (基礎統計学II) |
|||||
86 | 5 | サンプリング | ★★ | サンプリング | 調査に求められる信頼水準・誤差率から必要となるサンプル数を試算できる |
統計学入門 (基礎統計学Ⅰ) 人文・社会科学の統計学 (基礎統計学II) |
|||||
87 | 1 | データ加工 | ★ | データクレンジング | 名義尺度の変数をダミー変数に変換できる | ◯ | 統計学入門 (基礎統計学Ⅰ) | Rによるデータサイエンス | Python機械学習プログラミング | ||
88 | 2 | データ加工 | ★ | データクレンジング | 標準化とは何かを知っていて、適切に標準化が行える | ◯ | 統計学入門 (基礎統計学Ⅰ) | Rによるデータサイエンス | Python機械学習プログラミング | ||
89 | 3 | データ加工 | ★ | データクレンジング | 外れ値・異常値・欠損値とは何かそれぞれ知っていて、指示のもと適切に検出と除去・変換などの対応ができる | ◯ | 欠測データ処理 | 欠測データ処理 | |||
90 | 4 | データ加工 | ★★ | データクレンジング | 各変数の分布・欠損率などをふまえて、外れ値・異常値・欠損値の対応を決定できる | ◯ | 欠測データ処理 | 欠測データ処理 | |||
91 | 5 | データ加工 | ★★ | データクレンジング | 加工データに不具合がないか自分でテストを設計し、検証できる |
機械学習のための特徴量エンジニアリング Kaggleで勝つデータ分析の技術 |
|||||
92 | 6 | データ加工 | ★★★ | データクレンジング | 加工データの統計的な俯瞰によって不具合の早期発見ができるとともに、統計的観点で次ステップの解析に耐えうるデータであるか評価できる | ◯ |
機械学習のための特徴量エンジニアリング Kaggleで勝つデータ分析の技術 |
||||
93 | 7 | データ加工 | ★ | データ加工 | 分析要件や各変数の分布などをふまえて、必要に応じて量的変数のカテゴライズやビン化を設計・実行できる | * | 機械学習のための特徴量エンジニアリング | 機械学習のための特徴量エンジニアリング | |||
94 | 8 | データ加工 | ★★ | 特徴量エンジニアリング | 数値データの特徴量化(二値化/離散化、対数変換、スケーリング/正規化、交互作用特徴量の作成など)を行うことができる | * | 機械学習のための特徴量エンジニアリング | 機械学習のための特徴量エンジニアリング | |||
95 | 9 | データ加工 | ★★ | 特徴量エンジニアリング | カテゴリデータの特徴量化 (ダミー変数化、特徴量ハッシング[カテゴリ数が多い場合の値の割り当て]、ビンカウンティング、バックオフ、最小カウントスケッチ[レアなカテゴリのまとめ処理] など)を行うことができる | * | 機械学習のための特徴量エンジニアリング | 機械学習のための特徴量エンジニアリング | |||
96 | 10 | データ加工 | ★★ | 特徴量エンジニアリング | k-means、k近傍法、t-SNEなどを用いた非線形特徴量を作成できる |
はじめてのパターン認識(t-SNEはなし) 機械学習のための特徴量エンジニアリング |
機械学習のための特徴量エンジニアリング | ||||
97 | 11 | データ加工 | ★★ | 特徴量エンジニアリング | 周期的な意味合いをもつ特徴量を三角関数を用いて円周上に射影した特徴量に変換できる | Kaggleで勝つデータ分析の技術 | |||||
98 | 12 | データ加工 | ★★ | 特徴量エンジニアリング | 時系列データに対して、階差、移動平均、移動標準偏差、移動最大、移動最小、周期性や短期トレンドを考慮したラグなどの特徴量を作成できる | * | Kaggleで勝つデータ分析の技術 | ||||
99 | 13 | データ加工 | ★★ | 特徴量エンジニアリング | 複数のデータセットから、結合や集計などを組み合わせ、有効な特徴量を作成できる(ユーザごとの過去1ヵ月間の購買金額合計など) | * | ◯ | Kaggleで勝つデータ分析の技術 | |||
100 | 14 | データ加工 | ★★★ | 特徴量エンジニアリング | ドメイン知識に基づく洞察から有効な特徴量を効率的に作成できる(類似商品との価格差、借入額と返済額の比など) | * | Kaggleで勝つデータ分析の技術 | ||||
101 | 15 | データ加工 | ★★★ | 特徴量エンジニアリング | 有用と思われるデータを新たに調達し、既知のデータと組み合わせることで有効な特徴量を作成できる(特殊なカレンダー、地理空間的な類似度を考慮した集計値など) | * | Kaggleで勝つデータ分析の技術 | ||||
102 | 1 | データ可視化 | ★ | 方向性定義 | 可視化における目的の広がりについて概略を説明できる(単に現場の作業支援する場合から、ビッグデータ中の要素間の関連性をダイナミックに表示する場合など) | * | Kaggleで勝つデータ分析の技術 | ||||
103 | 2 | データ可視化 | ★★ | 方向性定義 | 特異点を明確にする、データ解析部門以外の方にデータの意味を正しく伝える、現場の作業を支援するといった可視化の役割・方向性を判別できる | * | Kaggleで勝つデータ分析の技術 | ||||
104 | 3 | データ可視化 | ★★★ | 方向性定義 | データ量が膨大で構造が捉えにくい場合や、アウトプットが想像しにくい場合であっても、可視化の役割・方向性を判断できる(ビッグデータ中の要素間の関連性をダイナミックに表現する、細部に入りきらずに問に対して答えを出すなど) | Kaggleで勝つデータ分析の技術 | |||||
105 | 4 | データ可視化 | ★ | 軸だし | 散布図などの軸だしにおいて、縦軸・横軸の候補を適切に洗い出せる | * | ◯ | ||||
106 | 5 | データ可視化 | ★ | 軸だし | 積み上げ縦棒グラフでの属性の選択など、適切な層化(比較軸)の候補を出せる | * | ◯ | ||||
107 | 6 | データ可視化 | ★★ | 軸だし | 抽出したい意味にふさわしい軸・層化の粒度、順番を考慮して軸のきざみや層化方法を選択できる | * | ◯ | ||||
108 | 7 | データ可視化 | ★★ | 軸だし | 膨大な属性を持つテーブルから目的に有用な属性を選択できる | * | |||||
109 | 8 | データ可視化 | ★★★ | 軸だし | 非構造データから分析の軸になりうる候補を抽出し、付加すべき属性候補を適切に出せる | * | |||||
110 | 9 | データ可視化 | ★ | データ加工 | サンプリングやアンサンブル平均によって適量にデータ量を減らすことができる | * | 前処理大全 |
前処理大全 Rによるデータサイエンス |
前処理大全 Python機械学習プログラミング |
||
111 | 10 | データ可視化 | ★★ | データ加工 | データの持つ分散量の観点で、高次のデータを主成分分析(PCA)などにより1~3次元のデータに変換できる | 前処理大全 |
前処理大全 Rによるデータサイエンス |
前処理大全 Python機械学習プログラミング |
|||
112 | 11 | データ可視化 | ★★ | データ加工 | 統計量を使うことで、データの読み取りたい特徴を効果的に可視化できる | 前処理大全 |
前処理大全 Rによるデータサイエンス |
前処理大全 Python機械学習プログラミング |
|||
113 | 12 | データ可視化 | ★★★ | データ加工 | 非線形(高次の曲線、渦状の分布など)のデータであっても、高次のデータの次元を、次元圧縮(1~3次元のデータに変換)して、特徴(データの総分散量および各データの位置関係)を損なわずに可視化できる | 前処理大全 | |||||
114 | 13 | データ可視化 | ★★★ | データ加工 | ネットワーク構造、グラフ構造などの表現において、ノードとエッジが増えすぎて特徴抽出が困難であっても、データの絞り込みや抽象度を上げることで適切に可視化できる | * | |||||
115 | 14 | データ可視化 | ★★★ | データ加工 | データ量が膨大(ペタバイト以上)なために、処理しきれず描画できない規模のデータに対しても、適度なデータや情報の抽出(間引き)、クラスタリングなどにより可視化しうる状態にデータを加工できる | * | |||||
116 | 15 | データ可視化 | ★★★ | データ加工 | 大規模なデータへのリアルタイムな可視化が求められる場合であっても、特異点の抽出や次元圧縮を通じてデータを圧縮し、リアルタイム表示できる | * | |||||
117 | 16 | データ可視化 | ★★★ | データ加工 | 大規模なデータへのリアルタイムな可視化が求められる場合であっても、データの分割転送、復元を通じて可視化できる | * | |||||
118 | 17 | データ可視化 | ★ | 表現・実装技法 | 適切な情報濃度を判断できる(データインク比など) | ||||||
119 | 18 | データ可視化 | ★ | 表現・実装技法 | 不必要な誇張をしないための軸表現の基礎を理解できている(コラムチャートのY軸の基準点は「0」からを原則とし軸を切らないなど) | ◯ | |||||
120 | 19 | データ可視化 | ★ | 表現・実装技法 | 強調表現がもたらす効果と、明らかに不適切な強調表現を理解している(計量データに対しては位置やサイズ表現が色表現よりも効果的など) | ◯ | |||||
121 | 20 | データ可視化 | ★ | 表現・実装技法 | 1~3次元の比較において目的(比較、構成、分布、変化など)に応じ、BIツール、スプレッドシートなどを用いて図表化できる | ◯ | |||||
122 | 21 | データ可視化 | ★ | 表現・実装技法 | 端的に図表の変化をアニメーションで可視化できる(人口動態のヒストグラムが経年変化する様子を表現するなど) | ||||||
123 | 22 | データ可視化 | ★ | 表現・実装技法 | データ解析部門以外の方に、データの意味を伝えるサインとしての可視化ができる | * | |||||
124 | 23 | データ可視化 | ★ | 表現・実装技法 | ボロノイ図の概念と活用方法を説明できる | ||||||
125 | 24 | データ可視化 | ★ | 表現・実装技法 | 1~3次元の図表を拡張した多変量の比較を適切に可視化できる(平行座標、散布図行列、テーブルレンズ、ヒートマップなど) | ||||||
126 | 25 | データ可視化 | ★★ | 表現・実装技法 | ネットワーク構造、グラフ構造、階層構造などの統計的な関係性の可視化ができる | * | ◯ | ||||
127 | 26 | データ可視化 | ★★ | 表現・実装技法 | GPSデータなどを平面地図上に重ね合わせた可視化ができる | ||||||
128 | 27 | データ可視化 | ★★ | 表現・実装技法 | 挙動・軌跡の可視化ができる(店舗内でのユーザの回遊やEye trackingなど) | ||||||
129 | 28 | データ可視化 | ★★ | 表現・実装技法 | 適切な情報(意味)を押さえた上で、デザイン性を高めるための要件提示ができる | * | |||||
130 | 29 | データ可視化 | ★★ | 表現・実装技法 | ドメイン知識とビジネス背景をふまえ、適切な情報項目を参照し、利用者の使い勝手を考慮した可視化したダッシュボードあるいは可視化ツールを設計できる | * | * | ||||
131 | 30 | データ可視化 | ★★★ | 表現・実装技法 | 人体、標高を持つ地図、球面などの上にデータを重ね合わせた可視化ができる | * | |||||
132 | 31 | データ可視化 | ★★★ | 表現・実装技法 | 地図上で同時に動く数百以上のポイントにおける時間変化を動的に表現できる(多地点での風の動き、飛行物の軌跡など) | * | |||||
133 | 32 | データ可視化 | ★ | 意味抽出 | データの性質を理解するために、データを可視化し眺めて考えることの重要性を理解している | * | ◯ | ||||
134 | 33 | データ可視化 | ★ | 意味抽出 | 外れ値を見出すための適切な表現手法を選択できる | ||||||
135 | 34 | データ可視化 | ★ | 意味抽出 | データの可視化における基本的な視点を挙げることができる(特異点、相違性、傾向性、関連性を見出すなど) | ||||||
136 | 35 | データ可視化 | ★★ | 意味抽出 | 統計値(代表値の指標、バラツキの指標、有意性の指標、関係式)を正しく読み、回帰式や移動平均線に意味付けできる | ||||||
137 | 36 | データ可視化 | ★★★ | 意味抽出 | 分類系の分析において、分布傾向から原因を追究、活用(分類に応じたDM発送による反応率の向上など)、ドリルダウンを計画し主導できる | ||||||
138 | 37 | データ可視化 | ★★★ | 意味抽出 | 予測系の分析において、関連性、特異点、変曲点から原因を追究、活用(予測結果に基づく発注管理など)を計画し主導できる | ||||||
139 | 38 | データ可視化 | ★★★ | 意味抽出 | 関連系の分析において関連が高い/低い原因、活用(リコメンドなど)、ドリルダウンを計画し主導できる | ||||||
140 | 1 | 分析プロセス | ★ | アプローチ設計 | スコープ、検討範囲・内容が明快に設定されていれば、必要なデータ、分析手法、可視化などを適切に選択できる | * | Kaggleで勝つデータ分析の技術 | ||||
141 | 2 | 分析プロセス | ★★ | アプローチ設計 | 解くべき課題がフレーミングされていれば、必要なデータ、分析手法、可視化などを適切に選択できる | * | ◯ | Kaggleで勝つデータ分析の技術 | |||
142 | 3 | 分析プロセス | ★★★ | アプローチ設計 | 複数の事業や課題にまたがっていても、必要なデータ、分析手法、可視化などを適切に選択し作業手順に落とし込める | * | Kaggleで勝つデータ分析の技術 | ||||
143 | 4 | 分析プロセス | ★★★ | アプローチ設計 | 複数のアプローチの組み合わせでしか解けない課題であっても、その解決までの道筋を設計できる | * | ◯ | Kaggleで勝つデータ分析の技術 | |||
144 | 1 | データの理解・検証 | ★ | 統計情報への正しい理解 | ニュース記事などで統計情報に接したときに、数字やグラフの持つメッセージを理解できる | * | |||||
145 | 2 | データの理解・検証 | ★★ | 統計情報への正しい理解 | 積極的に統計情報を収集しているとともに、表現に惑わされず数字を正当に評価できる(原点が0 ではないグラフ、不要な3D化、不要な2軸化、目盛りの未記載など) | * | |||||
146 | 3 | データの理解・検証 | ★★★ | 統計情報への正しい理解 | 数字やデータの検証のために、何と比較するべきかすみやかに把握し、収集・利用できる(業務データや過去に接触した統計情報の想起・活用を含む) | * | |||||
147 | 4 | データの理解・検証 | ★ | データ確認 | 単独のグラフに対して、集計ミスなどがないかチェックできる | * | ◯ | ||||
148 | 5 | データの理解・検証 | ★ | データ確認 | データ項目やデータの量・質について、指示のもと正しく検証し、結果を説明できる | * | |||||
149 | 6 | データの理解・検証 | ★★ | データ確認 | 複数のグラフや集計表で構成されているレポートに対して、全体として集計ミスや不整合が起きていないかチェックできる | * | ◯ | ||||
150 | 7 | データの理解・検証 | ★★ | データ確認 | データ項目やデータの量・質の検証方法を計画・実行し、その結果をもとにその後の分析プロセスを立案・修正できる | * | |||||
151 | 8 | データの理解・検証 | ★★★ | データ確認 | 多数のグラフ、集計表、外部の統計情報、高度なデータ解析手法を用いた解析結果などを含むレポートに対して、不整合が起きていないか、妥当性の高い論理構造であるかチェックできる | * | |||||
152 | 9 | データの理解・検証 | ★★★ | データ確認 | 分析に必要なデータを想定し、現在取得可能なデータの量・質で分析に耐えうるか、分析目的が達成可能であるかを判断できる | * | ◯ | ||||
153 | 10 | データの理解・検証 | ★ | 俯瞰・メタ思考 | データが生み出された背景を考え、鵜呑みにはしないことの重要性を理解している | * | |||||
154 | 11 | データの理解・検証 | ★★ | 俯瞰・メタ思考 | データを俯瞰して、変化をすみやかに察知するとともに、変化が誤差の範囲かどうか判断できる | * | ◯ | ||||
155 | 12 | データの理解・検証 | ★★★ | 俯瞰・メタ思考 | 複数のデータを多元的かつ大局的に俯瞰して、大きな動きや本質的な事実を見抜くことができる | * | ◯ | ||||
156 | 13 | データの理解・検証 | ★ | データ理解 | データから事実を正しく浮き彫りにするために、集計の切り口や比較対象の設定が重要であることを理解している | * | ◯ | ||||
157 | 14 | データの理解・検証 | ★ | データ理解 | 普段業務で扱っているデータの発生トリガー・タイミング・頻度などを説明でき、また基本統計量を把握している | * | |||||
158 | 15 | データの理解・検証 | ★ | データ理解 | 何のために集計しているか、どのような知見を得たいのか、目的に即して集計できる | * | ◯ | ||||
159 | 16 | データの理解・検証 | ★★ | データ理解 | 生データを眺めて、どのような切り口で集計・比較すればデータの理解や事実の把握につながるか検討できる | * | ◯ | ||||
160 | 17 | データの理解・検証 | ★★ | データ理解 | 扱ったことのない新たなデータに内容の不明な項目があっても、生データの閲覧や集計を通して何の項目かあたりをつけられる | * | |||||
161 | 18 | データの理解・検証 | ★★ | データ理解 | 扱っているデータの関連業務の知識と分析目的を踏まえて、どんな説明変数が効きそうか、あたりをつけて洗い出し、構造的に整理できる | * | |||||
162 | 19 | データの理解・検証 | ★★★ | データ理解 | データの変化から起きている事象の背景を構造的に推察し、仮説を立て、検証方法を企画実行できる | * | |||||
163 | 20 | データの理解・検証 | ★★★ | データ理解 | データを入手する前に、存在するであろうデータとその分布を想定して基礎俯瞰の方向性やその結果の想定ができ、それを前提とした解析方法の検討・ラフ設計をすることができる | * | |||||
164 | 21 | データの理解・検証 | ★★★ | データ理解 | 扱ったことのない新たなデータであっても、ER図やテーブル定義、生データなどを見ることによってデータの発生源や欠損値の意味などのあたりをつけられる | * | * | ||||
165 | 22 | データの理解・検証 | ★★ | データ粒度 | 分析目的とデータの量・質を踏まえて、想定されるメッセージと統計的観点から適切な集計単位とサンプリング率を決定できる | * | |||||
166 | 23 | データの理解・検証 | ★★★ | データ粒度 | 分析目的とデータの量・質に加えて、想定しているメッセージ、深掘りの方向性・可能性、処理負荷、データ処理フローなども総合的に踏まえた最適な集計単位とサンプリング率を決定できる | * | * | ||||
167 | 1 | 意味合いの抽出、洞察 | ★ | 洞察 | 分析、図表から直接的な意味合いを抽出できる(バラツキ、有意性、分布傾向、特異性、関連性、変曲点、関連度の高低など) | * | ◯ | ||||
168 | 2 | 意味合いの抽出、洞察 | ★ | 洞察 | 想定に影響されず、分析結果の数値を客観的に解釈できる | * | |||||
169 | 3 | 意味合いの抽出、洞察 | ★★ | 評価 | 各種の解析手法(主成分分析、クラスター分析、決定木分析など)の結果を解釈し、意味合いを適切に表現・説明できる | * | ◯ | Rによるデータサイエンス | |||
170 | 4 | 意味合いの抽出、洞察 | ★★ | 評価 | 分析結果が当初の目的を満たしていない場合に、問題を正しく理解し、目的達成に向けて必要な分析手順を追加・変更できる | * | |||||
171 | 1 | 機械学習技法 | ★ | 機械学習 | 機械学習にあたる解析手法の名称を3つ以上知っており、手法の概要を説明できる | はじめてのパターン認識 | Rによるデータサイエンス | ||||
172 | 2 | 機械学習技法 | ★ | 機械学習 | 指示を受けて機械学習のモデルを使用したことがあり、どのような問題を解決することができるか理解している | はじめてのパターン認識 | Rによるデータサイエンス | ||||
173 | 3 | 機械学習技法 | ★ | 機械学習 | 「教師あり学習」「教師なし学習」の違いを理解している | ◯ | はじめてのパターン認識 | Rによるデータサイエンス | |||
174 | 4 | 機械学習技法 | ★ | 機械学習 | 過学習とは何か、それがもたらす問題について説明できる | ◯ | はじめてのパターン認識 | Rによるデータサイエンス | |||
175 | 5 | 機械学習技法 | ★ | 機械学習 | 次元の呪いとは何か、その問題について説明できる | はじめてのパターン認識 | |||||
176 | 6 | 機械学習技法 | ★ | 機械学習 | 教師あり学習におけるアノテーションの必要性を説明できる | * | |||||
177 | 7 | 機械学習技法 | ★ | 機械学習 | 観測されたデータにバイアスが含まれる場合や、学習した予測モデルが少数派のデータをノイズと認識してしまった場合などに、モデルの出力が差別的な振る舞いをしてしまうリスクを理解している | ||||||
178 | 8 | 機械学習技法 | ★ | 機械学習 | 機械学習における大域的(global)な説明(モデル単位の各変数の寄与度など)と局所的(local)な説明(予測するレコード単位の各変数の寄与度など)の違いを理解している | ||||||
179 | 9 | 機械学習技法 | ★★ | 機械学習 | 次元の呪いの影響を受けやすいアルゴリズムを識別し対処するアプローチを知っている(特徴量選択、次元圧縮、L1/L2正則化など) |
はじめてのパターン認識 機械学習のための特徴量エンジニアリング |
|||||
180 | 10 | 機械学習技法 | ★★ | 機械学習 | アノテーションにおいて、判断基準の明確化やアノテーターの精度管理を適切に実施することにより、高品質な教師付きデータを効率的に作成できる | ||||||
181 | 11 | 機械学習技法 | ★★ | 機械学習 | 教師あり学習と強化学習の違いを、前提、定義、応用先といった観点で説明できる | ||||||
182 | 12 | 機械学習技法 | ★★ | 機械学習 | 決定木分析においてCHAID、C5.0、CARTなどのデータ分割のアルゴリズムの特徴を理解し、適切な方式を選定できる | はじめてのパターン認識 | |||||
183 | 13 | 機械学習技法 | ★★ | 機械学習 | ニューラルネットワークの基本的な考え方を理解し、出力される「ダイアグラム」の入力層、隠れ層、出力層の概要と、活性化関数の重要性を説明できる | ◯ | はじめてのパターン認識 | Rによるデータサイエンス | |||
184 | 14 | 機械学習技法 | ★★ | 機械学習 | サポートベクターマシンによる分析を、ライブラリを使って実行でき、その結果を解釈できる | はじめてのパターン認識 | Rによるデータサイエンス | ||||
185 | 15 | 機械学習技法 | ★★ | 機械学習 | 決定木をベースとしたアンサンブル学習(Random Forest、勾配ブースティング[Gradient Boosting Decision Tree:GBDT]、 その派生形であるXGBoost、LightGBMなど)による分析を、ライブラリを使って実行でき、その結果を正しく解釈できる |
はじめてのパターン認識 Kaggleで勝つデータ分析の技術 |
Rによるデータサイエンス | ||||
186 | 16 | 機械学習技法 | ★★ | 機械学習 | データに変更を加え予測モデルを故意に誤らせる敵対的サンプル(Adversarial examples)について、代表的な攻撃方法を理解している | ||||||
187 | 17 | 機械学習技法 | ★★ | 機械学習 | 生成モデルと識別モデルの違いやそれぞれのメリットを理解しており、目的に応じて適切に使い分けられる | ||||||
188 | 18 | 機械学習技法 | ★★ | 機械学習 | 不均衡データ(Imbalanced data)がモデルに与える影響を理解し、サンプリングや評価/損失関数のチューニングなどを適切に対処できる | Kaggleで勝つデータ分析の技術 | |||||
189 | 19 | 機械学習技法 | ★★ | 機械学習 | バイアスとバリアンスの関係を理解している | はじめてのパターン認識 | |||||
190 | 20 | 機械学習技法 | ★★ | 機械学習 | 機械学習・AIの出力結果に対する集団公平性(人種などのセンシティブ属性によるグループ間で差異がない)と個人公平性(人種などのセンシティブ属性以外が似ている個人間で差異がない)の違いを説明できる | * | |||||
191 | 21 | 機械学習技法 | ★★ | 機械学習 | LIME、SHAPなどを用いて、ブラックボックス性の高いモデルの局所的な説明(レコード単位の予測根拠の提示)ができる | ||||||
192 | 22 | 機械学習技法 | ★★★ | 機械学習 | 分析要件に応じ、モデリング手法(線形モデル、決定木、サポートベクターマシン、ニューラルネットワーク、アンサンブル学習など)の選択とパラメータ設定、結果の評価、チューニングを適切に設計・実施・指示できる | ◯ | Kaggleで勝つデータ分析の技術 | Rによるデータサイエンス | |||
193 | 23 | 機械学習技法 | ★★★ | 機械学習 | 複数の機械学習モデルを組み合わせるアンサンブル学習において、各モデルの予測スコアを用いた平均(Averaging)、多数決(Voting)、Stackingなどの手法を理解し、目的に応じて設計・実装できる |
はじめてのパターン認識 Kaggleで勝つデータ分析の技術 |
|||||
194 | 24 | 機械学習技法 | ★★★ | 機械学習 | アノテーション付きデータを使った半教師あり学習やアクティブラーニングにより効率的なアノテーション付与を実施できる | 深層学習(Goodfellow) | |||||
195 | 25 | 機械学習技法 | ★★★ | 機械学習 | 課題やデータに応じて、汎化性能向上のためのデータ拡張(Data Augmentation)を設計・実装できる(画像データの回転・反転、テキストデータの単語入れ替え・置換・削除など) |
Kaggleで勝つデータ分析の技術 深層学習(Goodfellow) |
|||||
196 | 26 | 機械学習技法 | ★★★ | 機械学習 | 機械学習等の最新の論文を理解し、必要とあれば自分で実装し評価できる | (深層学習(Goodfellow)) | |||||
197 | 27 | 機械学習技法 | ★★ | 深層学習 | バッチ勾配降下法(バッチ学習)、確率的勾配降下法(オンライン学習)、ミニバッチ勾配降下法(ミニバッチ学習)の違いを説明できる |
深層学習(機械学習プロフェッショナルシリーズ) 深層学習(Goodfellow) |
直感DeepLearning | ||||
198 | 28 | 機械学習技法 | ★★ | 深層学習 | ドロップアウト、L1/L2正則化などによる過学習の抑制や、バッチ正規化による学習の効率化について理解している | 深層学習(Goodfellow) | 直感DeepLearning | ||||
199 | 29 | 機械学習技法 | ★★ | 深層学習 | 文字や単語といった質的(離散的)な特徴量をニューラルネットワークで学習する場合、特徴量の各値にベクトルを対応させるEmbeddingが有効であることを理解している | 深層学習(Goodfellow) | 直感DeepLearning | ||||
200 | 30 | 機械学習技法 | ★★ | 深層学習 | "CNN、RNN/LSTMなどの深層学習(ディープラーニング)の主要方式の特徴を理解し、目的に応じて適切に選定できる ※CNN:Convolutional Neural Network(畳み込みニューラルネットワーク) ※RNN: Recurrent Neural Network (再帰型ニューラルネットワーク) ※LSTM:Long Short-Term Memory (長期短期記憶)" |
深層学習(機械学習プロフェッショナルシリーズ) 深層学習(Goodfellow) |
直感DeepLearning | ||||
201 | 31 | 機械学習技法 | ★★ | 深層学習 | 転移学習の基本的な枠組みを理解し、事前学習済みのニューラルネットワークを用いた効率的な学習方法を設計・実装できる | 深層学習(Goodfellow) | 直感DeepLearning | ||||
202 | 32 | 機械学習技法 | ★★ | 深層学習 | 誤差逆伝播法(Backpropagation)における勾配消失、勾配爆発の問題を理解し、適切な活性化関数・重みの初期化方法の選択、Gradient Clippingなどの緩和策を実施できる | 深層学習(Goodfellow) | |||||
203 | 33 | 機械学習技法 | ★★ | 深層学習 | Residual Connection(Skip Connection)が誤差逆伝播法(Backpropagation)における勾配消失問題の緩和策となっていることを理解している | ||||||
204 | 34 | 機械学習技法 | ★★ | 深層学習 | 深層学習における最適化法/Optimizer(SGD、Momentum、RMSProp、Adamなど)や学習率の動的な調整法(cyclical learning rateなど)の重要性について理解している | 深層学習(Goodfellow) | 直感DeepLearning | ||||
205 | 35 | 機械学習技法 | ★★★ | 深層学習 | 深層学習の実装において、予想精度を向上するため、層の種類(全結合、畳み込み、プールなど)、層数、ニューロン数、活性化関数、学習率、学習回数などをチューニングできる |
深層学習(機械学習プロフェッショナルシリーズ) 深層学習(Goodfellow) |
直感DeepLearning | ||||
206 | 36 | 機械学習技法 | ★★★ | 深層学習 | 深層学習モデルの推論時の計算コストを削減する方法(枝刈り、蒸留、量子化など)を設計・実装できる | ||||||
207 | 37 | 機械学習技法 | ★★★ | 深層学習 | "主要な深層生成モデル(変分自己符号化器(Variational Autoencoder | VAE) 、敵対的生成ネットワーク(Generative Adversarial Network | GAN))やその派生形を理解し、目的に応じて学習・評価できる" | 深層学習(Goodfellow) | |||
208 | 38 | 機械学習技法 | ★★ | 強化学習 | 状態と行動、報酬による強化学習の基本概念を理解し、モンテカルロ法やQ学習などによる学習の仕組みを実装できる | Pythonで学ぶ強化学習 |
Pythonで学ぶ強化学習 直感DeepLearning |
||||
209 | 39 | 機械学習技法 | ★★★ | 強化学習 | 主要な強化学習モデル(DQN(Deep Q-network)、A3C(Asynchronous Advantage Actor-Critic))やその派生形を理解し、目的に応じて学習・評価できる | Pythonで学ぶ強化学習 | Pythonで学ぶ強化学習 | ||||
210 | 1 | 時系列分析 | ★ | 時系列分析 | 時系列データとは何か、その基礎的な扱いについて説明できる(時系列グラフ、周期性、移動平均など) | 経済・ファイナンスデータの計量時系列分析 | Rによる時系列分析入門 | ||||
211 | 2 | 時系列分析 | ★★ | 時系列分析 | 時系列データの時点差での相関関係を、系列相関やコレログラムを利用して評価ができる | 経済・ファイナンスデータの計量時系列分析 | Rによる時系列分析入門 | ||||
212 | 3 | 時系列分析 | ★★ | 時系列分析 | 時系列データに対し、ライブラリを使用して、分析結果の比較を行い、適切なモデルを選択できる(自己回帰モデル[AR]、移動平均モデル[MA]、ARMA、ARIMA、SARIMA、GARCH、指数平滑法など) | 経済・ファイナンスデータの計量時系列分析 | Rによる時系列分析入門 | ||||
213 | 4 | 時系列分析 | ★★ | 時系列分析 | グレンジャー因果などの手法を用い、時系列データにおける変数間の因果関係を把握できる | 経済・ファイナンスデータの計量時系列分析 | |||||
214 | 5 | 時系列分析 | ★★ | 時系列分析 | 時系列分析は少なくとも3つの要素の視点をもって行うべきことを理解している(長期トレンド、季節成分、その他周期性など) | 経済・ファイナンスデータの計量時系列分析 | Rによる時系列分析入門 | ||||
215 | 6 | 時系列分析 | ★★ | 時系列分析 | Fast Fourier Transform:FFT(高速フーリエ変換)などを用いてピリオドグラムの計算量を抑制できる | ||||||
216 | 7 | 時系列分析 | ★★ | 時系列分析 | 時系列データにおいて、前埋め/線形補完/移動平均などの手法を用い欠測値の補完を行うことができる | Rによる時系列分析入門 | |||||
217 | 8 | 時系列分析 | ★★★ | 時系列分析 | 状態空間モデルにおいて、カルマンフィルタを用いて、観測値から欠測値の補完をし、予測モデルを構築できる |
時系列分析と状態空間モデルの基礎: RとStanで学ぶ理論と実装 基礎からわかる時系列分析 ―Rで実践するカルマンフィルタ・MCMC・粒子フィルター |
|||||
218 | 9 | 時系列分析 | ★★★ | 時系列分析 | 非線形・非ガウス型状態空間モデルにおいて、モンテカルロ・フィルタを用いて、複雑な時系列システムの予測モデルを構築できる |
時系列分析と状態空間モデルの基礎: RとStanで学ぶ理論と実装 基礎からわかる時系列分析 ―Rで実践するカルマンフィルタ・MCMC・粒子フィルター |
|||||
219 | 1 | 言語処理 | ★ | 言語処理 | テキストデータに対する代表的なクリーニング処理(小文字化、数値置換、半角変換、記号除去、ステミングなど)をタスクに応じて適切に実施できる | * |
自然言語処理〔改訂版〕 (放送大学教材) 言語処理のための機械学習入門 |
||||
220 | 2 | 言語処理 | ★ | 言語処理 | 形態素解析や係り受け解析の概念を説明できる |
自然言語処理〔改訂版〕 (放送大学教材) 言語処理のための機械学習入門 |
|||||
221 | 3 | 言語処理 | ★★ | 言語処理 | 形態素解析や係り受け解析のライブラリを適切に使い、基本的な文書構造解析を行うことができる |
自然言語処理〔改訂版〕 (放送大学教材) 言語処理のための機械学習入門 |
|||||
222 | 4 | 言語処理 | ★★ | 言語処理 | Byte Pair Encoding:BPE によるサブワード分割手法を理解しており、必要に応じて適切に実施できる | 自然言語処理のための深層学習 | |||||
223 | 5 | 言語処理 | ★★ | 言語処理 | 使用メモリの削減やモデルの精度向上のため、名寄せやストップワードの除去・置換を実施できる | 言語処理のための機械学習入門 | |||||
224 | 6 | 言語処理 | ★★ | 言語処理 | TF-IDFやcos類似度などの基本的なアルゴリズムを使い、単語ベクトルの作成や文書群の類似度計算を行うことができる |
自然言語処理〔改訂版〕 (放送大学教材) 言語処理のための機械学習入門 |
|||||
225 | 7 | 言語処理 | ★★ | 言語処理 | Word2Vec(Skip-gram、CBoW)やDoc2Vec(DBoW、DM)などの分散表現(ベクトル表現)モデルを理解し使いこなせる | 自然言語処理〔改訂版〕 (放送大学教材) | |||||
226 | 8 | 言語処理 | ★★★ | 言語処理 | 形態素解析・構文解析・固有表現抽出のアルゴリズムを理解し、使いこなせる |
自然言語処理〔改訂版〕 (放送大学教材) 言語処理のための機械学習入門 |
|||||
227 | 9 | 言語処理 | ★★★ | 言語処理 | N-gram言語モデルの構築方法と代表的なスムージングアルゴリズムを理解し、使いこなせる |
自然言語処理〔改訂版〕 (放送大学教材) 言語処理のための機械学習入門 自然言語処理のための深層学習 |
|||||
228 | 10 | 言語処理 | ★★★ | 言語処理 | 索引型の全文検索の仕組み(転置インデックス、スコアリング、関連性フィードバック)を理解し、使いこなせる | ||||||
229 | 11 | 言語処理 | ★★★ | 言語処理 | Trie、Suffix Arrayなどの代表的な高速文字列検索アルゴリズムを理解し、使いこなせる | ||||||
230 | 12 | 言語処理 | ★★★ | 言語処理 | 主要なトピックモデル(確率的潜在意味解析[pLSA]、潜在的ディリクレ配分法[LDA])の仕組みを理解し、使いこなせる | AIアルゴリズムマーケティング | |||||
231 | 13 | 言語処理 | ★★★ | 言語処理 | データの特性に合わせ、適切な言語処理アルゴリズムを選択し、誤り分析、辞書作成などを行い、成果を最大化することができる | 機械学習・深層学習による自然言語処理入門 | |||||
232 | 14 | 言語処理 | ★★★ | 言語処理 | 再帰型ニューラルネットワーク(RNN)、長期短期記憶(LSTM)などを用いたニューラルネット型言語モデルを理解し使いこなせる | 自然言語処理のための深層学習 |
直感DeepLearning 機械学習・深層学習による自然言語処理入門 |
||||
233 | 15 | 言語処理 | ★★★ | 言語処理 | 隠れマルコフモデル(Hidden Markov Model:HMM)、Conditional Random Fields:CRF)などを用いた系列ラベリング手法を理解し使いこなせる |
自然言語処理のための深層学習 言語処理のための機械学習入門 |
|||||
234 | 16 | 言語処理 | ★★★ | 言語処理 | GPT(Generative Pre-Trained transformer)、BERT(Bidirectional Encoder Representations from Transformer)などのAttentionベースのニューラルネット型言語モデルを理解し使いこなせる | 自然言語処理のための深層学習 | 機械学習・深層学習による自然言語処理入門 | ||||
235 | 1 | 画像・動画処理 | ★ | 画像処理 | 画像のデジタル表現の仕組みと代表的な画像フォーマットを知っている | ||||||
236 | 2 | 画像・動画処理 | ★ | 画像処理 | 画像に対して、目的に応じた適切な色変換や簡単なフィルタ処理などを行うことができる | * | |||||
237 | 3 | 画像・動画処理 | ★ | 画像処理 | 画像データに対する代表的なクリーニング処理(リサイズ、パディング、標準化など)をタスクに応じて適切に実施できる | * | |||||
238 | 4 | 画像・動画処理 | ★★ | 画像処理 | 画像の処理や解析において、効果的なパターン検出や画像特徴抽出などを既存手法から選ぶことができる | * | |||||
239 | 5 | 画像・動画処理 | ★★ | 画像処理 | 画像の処理や解析において、既存のAPI化したクラウドサービスなどを目的に即して、選定・活用することができる | ||||||
240 | 6 | 画像・動画処理 | ★★ | 画像処理 | ResNet、DenseNet、MobileNetなどの代表的な画像認識モデルを理解し使いこなせる | ||||||
241 | 7 | 画像・動画処理 | ★★★ | 画像処理 | 識別・物体検出・セマンティックセグメンテーションなどの画像処理手法に関して、適切な論文などの文献を参考に実装し評価できる | ||||||
242 | 8 | 画像・動画処理 | ★★★ | 画像処理 | 画像・動画処理を行う環境に合わせて適切な実装・手法を選ぶことができる | * | |||||
243 | 9 | 画像・動画処理 | ★ | 動画処理 | 動画のデジタル表現の仕組みと代表的な動画フォーマットを理解しており、動画から画像を抽出する既存方法を使うことができる | ||||||
244 | 10 | 画像・動画処理 | ★★★ | 動画処理 | 動画の自動解析手法の現況について理解し、適切な専門家のサポートの元で実装を検討できる | ||||||
245 | 1 | 音声/音楽処理 | ★ | 音声/音楽処理 | wavやmp3などの代表的な音声フォーマットを知っている | ||||||
246 | 2 | 音声/音楽処理 | ★★ | 音声/音楽処理 | 音声データから、分析目的にあった波形データの抽出やノイズの除去をすることができる | * | |||||
247 | 3 | 音声/音楽処理 | ★★ | 音声/音楽処理 | 音声認識や本人認証、感情分析などの代表的な音声処理分野について理解し、用いられる分析手法を説明することができる | ||||||
248 | 4 | 音声/音楽処理 | ★★ | 音声/音楽処理 | 音声合成モデル(Text to speech)の学習済みモデルを使い、テキストを音声に変換できる | ||||||
249 | 5 | 音声/音楽処理 | ★★★ | 音声/音楽処理 | 短時間フーリエ分析、メルフィルタバンク処理、ケプストラム分析、LPC(線形予測分析)などの代表的な音声信号分析手法を理解し、使いこなすことができる | ||||||
250 | 6 | 音声/音楽処理 | ★★★ | 音声/音楽処理 | 音声認識、音声合成、認証・感情分析などの目的に合わせて、パラメータ調整や手法変更、言語モデル・音響モデルなどを差し替え、モデル構築・精度評価をすることができる | ||||||
251 | 1 | パターン発見 | ★ | パターン発見 | 条件Xと事象Yの関係性をリフト値を用いて評価できる | AIアルゴリズムマーケティング | |||||
252 | 2 | パターン発見 | ★★ | パターン発見 | アプリオリアルゴリズムのアソシエーション分析において、パラメータをチューニングして出力件数を調整できる | AIアルゴリズムマーケティング | Rによるデータサイエンス | ||||
253 | 3 | パターン発見 | ★★ | パターン発見 | 分析要件から適切なレコメンドアルゴリズム(協調フィルタリング、コンテンツベースフィルタリング、Factrization Machineなど)を選定できる | AIアルゴリズムマーケティング | |||||
254 | 1 | グラフィカルモデル | ★★ | グラフィカルモデル | グラフィカルモデルを用いて、確率変数間の関係性をグラフ表現できる | 原因をさぐる統計学―共分散構造分析入門 | |||||
255 | 2 | グラフィカルモデル | ★★ | グラフィカルモデル | 重回帰分析とパス解析の違いを説明できる | 原因をさぐる統計学―共分散構造分析入門 | |||||
256 | 3 | グラフィカルモデル | ★★ | グラフィカルモデル | ベイジアンネットワーク分析結果から目的事象の事後確率を算出できる | ||||||
257 | 4 | グラフィカルモデル | ★★ | グラフィカルモデル | 共分散構造分析(構造方程式モデリング:SEM)を行い、観測変数・潜在変数の因果関係を説明できる | 原因をさぐる統計学―共分散構造分析入門 | |||||
258 | 1 | シミュレーション/ データ同化 | ★★ | シミュレーション/ データ同化 | 離散型・連続型シミュレーションについて、説明できる(モンテカルロ、ヒストリカル、Agent ベースなど) | ||||||
259 | 2 | シミュレーション/ データ同化 | ★★ | シミュレーション/ データ同化 | マルコフ連鎖の特徴を理解し、MCMC(マルコフ連鎖モンテカルロ法)シミュレーションをライブラリを用いて実装できる | RとStanではじめるベイズ統計モデリングによるデータ分析 | |||||
260 | 3 | シミュレーション/ データ同化 | ★★★ | シミュレーション/ データ同化 | データ同化の概念を理解し、実行できる(データを用いてシミュレーション内の不確実性を減少させる計算技法など) | 予測にいかす統計モデリングの基本 | |||||
261 | 4 | シミュレーション/ データ同化 | ★★★ | シミュレーション/ データ同化 | シミュレーションにおける問題を理解し、対処を考えることができる(初期条件・境界条件・パラメータの不確実性、データ分布の不均一性、実験計画の最適性など) | RとStanではじめるベイズ統計モデリングによるデータ分析 | |||||
262 | 5 | シミュレーション/ データ同化 | ★★★ | シミュレーション/ データ同化 | MCMC(マルコフ連鎖モンテカルロ法)における各種アルゴリズム(メトロポリス-ヘイスティングス法、ギブスサンプラー、ハミルトニアン・モンテカルロ法など)について理解し、活用できる | RとStanではじめるベイズ統計モデリングによるデータ分析 | |||||
263 | 1 | 最適化 | ★★ | 最適化 | 線形計画法について、説明することができる |
これなら分かる最適化数学 最適化手法入門 |
最適化手法入門 | ||||
264 | 2 | 最適化 | ★★ | 最適化 | 複数のA/Bテスト、スプリットテストの統計的結果を踏まえ、デザイン等の最適化を行う手法を回すことができる | * |
これなら分かる最適化数学 最適化手法入門 |
最適化手法入門 | |||
265 | 3 | 最適化 | ★★ | 最適化 | 一定の制約下で最適解の識別と報酬の最大化がともに求められ、かつ報酬分布が時間経過で変化するような問題に対して、多腕バンディットアルゴリズムを適用・実装できる | Pythonで学ぶ強化学習 | Pythonで学ぶ強化学習 | ||||
266 | 4 | 最適化 | ★★ | 最適化 | 凸関数および、凸計画問題の条件や特徴を説明できる |
これなら分かる最適化数学 最適化手法入門 |
最適化手法入門 | ||||
267 | 5 | 最適化 | ★★ | 最適化 | 連続最適化問題(制約なし)において、使用可能なアルゴリズムを説明することができる(ニュートン法、最急降下法など) |
これなら分かる最適化数学 最適化手法入門 |
最適化手法入門 | ||||
268 | 6 | 最適化 | ★★ | 最適化 | 連続最適化問題(制約あり)において、使用可能なアルゴリズムを説明することができる(ラグランジュ未定乗数法、内点法、逐次2次計画法など) | 最適化手法入門 | 最適化手法入門 | ||||
269 | 7 | 最適化 | ★★ | 最適化 | 組み合わせ最適化問題において、代表的な解法の概念を説明することができる(厳密解法(分枝限定法、動的計画法、切除平面法)、近似解法(局所探索、貪欲法など)、メタヒューリスティック解法(遺伝的アルゴリズム、タブーサーチなど)) |
これなら分かる最適化数学 最適化手法入門 |
最適化手法入門 | ||||
270 | 8 | 最適化 | ★★★ | 最適化 | ビジネス課題にあわせて、変数、目的関数、制約を定式化し、線形・非線形を問わず、最適化モデリングができる | * |
これなら分かる最適化数学 最適化手法入門 |
最適化手法入門 | |||
271 | 9 | 最適化 | ★★★ | 最適化 | 代表的な最適化問題に関して、モデリングを行い、ソルバーを使い、最適化できる(ナップザック問題、ネットワークフロー問題、巡回路問題など) | 最適化手法入門 | 最適化手法入門 |
その他関連書籍を データサイエンス、データ分析、機械学習関連の本 に書いております