一般社団法人データサイエンティスト協会 スキルチェックリストを改変
注:
- 私は本スキルチェックリストの項目をすべてマスターしているわけではありません。ただ、スキルチェックリストはありながら、それをどのように学んでいったらいいかの情報がWEB上になかったので調べてみました。
- 各書籍の紹介は
- 私はほぼRのみなのでPython例はよく分からず触れていません。
- 各項目にあげた本は入門です。その本でその項目の内容をすべて網羅しているわけではありません。特にスキルレベル「★★★」は更に上級の本、実践が必要です。
No | SubNo | スキルカテゴリ | スキルレベル | サブカテゴリ | チェック項目 | 必須スキル | Rでの実践 | 理論 |
---|---|---|---|---|---|---|---|---|
1 | 1 | 統計数理基礎 | ★ | 統計数理基礎 | 1+4+9+16+25+36をΣを用いて表せる | ◯ | 1 | 高校数学 |
2 | 2 | 統計数理基礎 | ★ | 統計数理基礎 | loga(x) の逆関数を説明できる | ◯ | 1 | 高校数学 |
3 | 3 | 統計数理基礎 | ★ | 統計数理基礎 | 順列と組合せの式をP、C、m、nを用いて表せる | ◯ | 1 | 高校数学 |
4 | 4 | 統計数理基礎 | ★ | 統計数理基礎 | 条件付き確率の意味を説明できる | ◯ | 1 | 高校数学、統計学入門 (基礎統計学Ⅰ)2 |
5 | 5 | 統計数理基礎 | ★ | 統計数理基礎 | 平均(相加平均)、中央値、最頻値の算出方法の違いを説明できる | ◯ | 1 | 高校数学、統計学入門 (基礎統計学Ⅰ) |
6 | 6 | 統計数理基礎 | ★ | 統計数理基礎 | 母集団データ(3,4,5,5,7,8)の分散と標準偏差を電卓を用いて計算できる | ◯ | 1 | 高校数学、統計学入門 (基礎統計学Ⅰ) |
7 | 7 | 統計数理基礎 | ★ | 統計数理基礎 | 母(集団)平均が標本平均とは異なることを説明できる | ◯ | 1 | 高校数学、統計学入門 (基礎統計学Ⅰ) |
8 | 8 | 統計数理基礎 | ★ | 統計数理基礎 | 標準正規分布の分散と平均がいくつかわかる | ◯ | 1 | 高校数学、統計学入門 (基礎統計学Ⅰ) |
9 | 9 | 統計数理基礎 | ★ | 統計数理基礎 | 相関関係と因果関係の違いを説明できる | ◯ | 1 | 統計学入門 (基礎統計学Ⅰ) |
10 | 10 | 統計数理基礎 | ★ | 統計数理基礎 | 名義尺度、順序尺度、間隔尺度、比例尺度の違いを説明できる | ◯ | 1 | 統計学入門 (基礎統計学Ⅰ)、はじめてのパターン認識 |
11 | 11 | 統計数理基礎 | ★ | 統計数理基礎 | 一般的な相関係数(ピアソン)の分母と分子を説明できる | ◯ | 1 | 統計学入門 (基礎統計学Ⅰ) |
12 | 12 | 統計数理基礎 | ★ | 統計数理基礎 | 代表的な確率分布の特徴を5つ以上説明できる | ◯ | 1 | 統計学入門 (基礎統計学Ⅰ) |
13 | 13 | 統計数理基礎 | ★ | 統計数理基礎 | 変数が量的、質的どちらの場合の関係の強さも算出できる | ◯ | 1 | はじめてのパターン認識 |
14 | 1 | 予測 | ★ | 予測 | 単回帰分析について最小二乗法、回帰係数、標準誤差の説明ができる | Rによるデータサイエンス データ解析の基礎から最新手法まで | 統計学入門 (基礎統計学Ⅰ) | |
15 | 2 | 予測 | ★★ | 予測 | 重回帰分析において偏回帰係数と標準偏回帰係数、重相関係数について説明できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | 統計学入門 (基礎統計学Ⅰ) | |
16 | 3 | 予測 | ★★ | 予測 | 重回帰や判別を実行する際に変数選択手法の特徴を理解し、適用できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | ||
17 | 4 | 予測 | ★★ | 予測 | ニューラルネットワークの基本的な考え方を理解し、出力される「ダイアグラム」の入力層、隠れ層、出力層の概要を説明できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
18 | 5 | 予測 | ★★ | 予測 | 重回帰分析において多重共線性の対応ができ、適切に変数を評価・除去して予測モデルが構築できる | ◯ | 3 | |
19 | 6 | 予測 | ★★ | 予測 | 決定木分析においてCHAID、C5.0などのデータ分割のアルゴリズムの特徴を理解し、適切な方式を選定できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
20 | 7 | 予測 | ★★ | 予測 | 線形回帰分析が量的なを予測するのに対して、ロジスティック回帰分析は何を予測する手法か(発生確率予測など)を説明でき、実際に使用できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
21 | 8 | 予測 | ★★★ | 予測 | 予測アルゴリズムに応じ、目的変数と説明変数に対する必要な変数加工処理が設計、実施できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
22 | 9 | 予測 | ★★★ | 予測 | 予測モデル構築において頑健性を維持するための具体的な方法を設計、実施できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
23 | 10 | 予測 | ★★★ | 予測 | 過学習(正則化)の意味を説明ができ、回避する方法の設計・実施ができる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
24 | 11 | 予測 | ★★★ | 予測 | 尤度と最尤推定についての説明できる(尤度関数、ネイマンの分解定理、順序統計量) | はじめてのパターン認識、これなら分かる最適化数学―基礎原理から計算手法まで | ||
25 | 12 | 予測 | ★★★ | 予測 | (モデルに交互作用が含まれていないとき)回帰パラメータとオッズ比の関係について説明できる | |||
26 | 13 | 予測 | ★★★ | 予測 | ロジスティック回帰分析を行う際に、最小2乗法ではなく最尤法を使う際の利点(回帰誤差が近似的に正規分布しなくても適用できるなど)を説明し、適用することができる | |||
27 | 14 | 予測 | ★★★ | 予測 | 目的(予測・真のモデル推定など)に応じて、適切な損失関数とモデル選択基準(AIC(赤池情報量規準)、BIC(ベイズ情報量規準)、MDL(最小記述長)など)を選択し、モデル評価ができる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
28 | 15 | 予測 | ★★★ | 予測 | データと分析要件から、モデル精度のモニタリング設計・実施と劣化が見込まれるモデルに対するリモデルの設計ができる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
29 | 16 | 予測 | ★★★ | 予測 | 分析要件に応じ、量的予測のためのモデリング手法(重回帰、決定木、ニューラルネットワークなど)の選択とパラメータ設定、結果の評価、チューニングを適切に設計・実施・指示できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
30 | 1 | 検定/判断 | ★ | 検定/判断 | 点推定・区間推定の意味を理解している | 1 | 統計学入門 (基礎統計学Ⅰ) | |
31 | 2 | 検定/判断 | ★ | 検定/判断 | 帰無仮説・対立仮説の意味を理解している | ◯ | 1 | 統計学入門 (基礎統計学Ⅰ) |
32 | 3 | 検定/判断 | ★ | 検定/判断 | 第1種の過誤、第2種の過誤、p値、有意水準の意味を理解している | 1 | 統計学入門 (基礎統計学Ⅰ)、はじめてのパターン認識 | |
33 | 4 | 検定/判断 | ★ | 検定/判断 | 片側検定、両側検定の意味を理解している | 1 | 統計学入門 (基礎統計学Ⅰ) | |
34 | 5 | 検定/判断 | ★ | 検定/判断 | 対応のあるデータ、対応のないデータの意味を理解している | 1 | 統計学入門 (基礎統計学Ⅰ) | |
35 | 6 | 検定/判断 | ★ | 検定/判断 | 平均値、分散、平均値の差の検定手法を知っている | 1 | 統計学入門 (基礎統計学Ⅰ) | |
36 | 7 | 検定/判断 | ★★ | 検定/判断 | t検定を理解して、パラメトリックな2群の検定を活用することができる | ◯ | 1 | 統計学入門 (基礎統計学Ⅰ) |
37 | 8 | 検定/判断 | ★★ | 検定/判断 | 様々な分散分析の考え方(一元配置、多重比較、二元配置)を理解して、パラメトリックな多群の検定を活用することができる | 1 | バイオサイエンスの統計学―正しく活用するための実践理論 | |
38 | 9 | 検定/判断 | ★★ | 検定/判断 | ウィルコクソン検定(マンホイットニーのU検定)を理解して、ノンパラメトリックな2群の検定を活用することができる | 1 | バイオサイエンスの統計学―正しく活用するための実践理論 | |
39 | 10 | 検定/判断 | ★★ | 検定/判断 | クラスカル・ウォリス検定を理解して、ノンパラメトリックな多群の検定を活用することができる | 1 | バイオサイエンスの統計学―正しく活用するための実践理論 | |
40 | 11 | 検定/判断 | ★★ | 検定/判断 | カイ二乗検定、フィッシャーの直接確率検定を理解して、分割表における群間の関連性の検定を活用することができる | 1 | バイオサイエンスの統計学―正しく活用するための実践理論 | |
41 | 1 | グルーピング | ★ | グルーピング | 教師あり分類と教師なし分類の違いを説明できる | ◯ | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 |
42 | 2 | グルーピング | ★ | グルーピング | 判別分析とクラスター分析の概要や使い方を説明できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
43 | 3 | グルーピング | ★ | グルーピング | 階層クラスター分析と非階層クラスタ-分析の違いを理解している | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
44 | 4 | グルーピング | ★ | グルーピング | クラスター分析のデンドログラムの見方が分かり、適切に解釈できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
45 | 5 | グルーピング | ★★ | グルーピング | 非階層クラスター分析において、分析目的に合致したクラスター数を決定することができる | |||
46 | 6 | グルーピング | ★★ | グルーピング | 階層クラスター分析における代表的なクラスター間距離(群平均法、Ward法、最長一致法など)の概念を理解し、分析内容に応じて最適な手法を選択して、分析ができる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
47 | 7 | グルーピング | ★★ | グルーピング | 各種距離関数(ユークリッド距離、マンハッタン距離、cos類似度など)を理解し、分析内容に応じて、適切なものを選択し分析ができる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
48 | 8 | グルーピング | ★★ | グルーピング | 分析内容に応じて、線形か非線形を使い分けた判別分析ができる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
49 | 9 | グルーピング | ★★ | グルーピング | k-means法は局所最適解であるため初期値問題があることを理解し、適切な初期値を設定して分析を行える | ◯ | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 |
50 | 10 | グルーピング | ★★★ | グルーピング | 距離の公理を知っており、距離の公理を満たさない場合([1-cos類似度]など)のクラスター分析を適切に行える | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
51 | 11 | グルーピング | ★★★ | グルーピング | k-meansの派生手法(x-means、k-means++、ファジィk-meansなど)を理解し、分析内容に応じた適切な手法を選択して、分析ができる | |||
52 | 12 | グルーピング | ★★★ | グルーピング | k-meansとカーネルk-means(非線形クラスタリング)、スペクトラルクラスタリングの違いを理解し、分析内容に応じて、適切な手法を選択して、分析ができる | |||
53 | 13 | グルーピング | ★★★ | グルーピング | 自己組織化マップ(SOM)、Affinity Propagation、混合分布モデル、ディリクレ過程混合モデルを理解し、分析内容に応じて適切な手法を選択して、分析ができる | |||
54 | 1 | 性質・関係性の把握 | ★ | 性質・関係性の把握 | 適切なデータ区間設定でヒストグラムを作成することができる | ◯ | Rによるデータサイエンス データ解析の基礎から最新手法まで | 統計学入門 (基礎統計学Ⅰ) |
55 | 2 | 性質・関係性の把握 | ★ | 性質・関係性の把握 | 何でクロスするかを判断して、表側を設定しクロス集計表を作成することができる | ◯ | Rによるデータサイエンス データ解析の基礎から最新手法まで | 統計学入門 (基礎統計学Ⅰ) |
56 | 3 | 性質・関係性の把握 | ★ | 性質・関係性の把握 | 量的変量の散布図を描き、2変数の関係性を把握することができる | ◯ | Rによるデータサイエンス データ解析の基礎から最新手法まで | |
57 | 4 | 性質・関係性の把握 | ★★ | 性質・関係性の把握 | 多重(質問間)クロス表などを駆使して、データから適切なインサイトを得ることができる | ◯ | ||
58 | 5 | 性質・関係性の把握 | ★★ | 性質・関係性の把握 | 主成分分析と因子分析の違いや使い分けを説明できる | ◯ | Rによるデータサイエンス データ解析の基礎から最新手法まで | |
59 | 6 | 性質・関係性の把握 | ★★ | 性質・関係性の把握 | 正準相関分析を説明、活用できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | ||
60 | 7 | 性質・関係性の把握 | ★★ | 性質・関係性の把握 | 正規分布を前提とした多変量解析において、分析の目的と用いるデータの種類から適切な手法を選択できる | ◯ | Rによるデータサイエンス データ解析の基礎から最新手法まで | |
61 | 8 | 性質・関係性の把握 | ★★ | 性質・関係性の把握 | 因子分析における、因子負荷量や因子軸の回転について説明できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | ||
62 | 9 | 性質・関係性の把握 | ★★ | 性質・関係性の把握 | コレスポンデンス(対応)分析と数量化3類との関係を説明できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | ||
63 | 10 | 性質・関係性の把握 | ★★ | 性質・関係性の把握 | コンジョイント分析を用いて効用値と寄与率のグラフを描くことができる | |||
64 | 11 | 性質・関係性の把握 | ★★ | 性質・関係性の把握 | 適切な類似度を設定した上で、多次元尺度構成法を用いてポジショニングマップを描くことができる | Rによるデータサイエンス データ解析の基礎から最新手法まで | ||
65 | 1 | サンプリング | ★ | サンプリング | 標本誤差とは何かを説明できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | 統計学入門 (基礎統計学Ⅰ) | |
66 | 2 | サンプリング | ★ | サンプリング | 実験計画法の概要を説明でできる | |||
67 | 3 | サンプリング | ★★ | サンプリング | 分析に最低限必要な標本サイズを設定など、調査目的に合った標本抽出計画を立案できる | ◯ | ||
68 | 4 | サンプリング | ★★ | サンプリング | 属性数と水準数が決まれば適切な直交表を選択し実験計画ができる | |||
69 | 1 | データ加工 | ★ | データ加工 | 名義尺度の変数をダミー変数に変換できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
70 | 2 | データ加工 | ★ | データ加工 | 標準化とは何かを知っていて、適切に標準化が行える | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
71 | 3 | データ加工 | ★ | データ加工 | 外れ値・異常値・欠損値とは何かそれぞれ知っていて、指示のもと適切に検出と除去・変換などの対応ができる | ◯ | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 |
72 | 4 | データ加工 | ★ | データ加工 | 指示のもと、加工済データに分析上の不具合がないか検証できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | ||
73 | 5 | データ加工 | ★★ | データ加工 | 各変数の分布・欠損率などを踏まえて、外れ値・異常値・欠損値の対応を決定できる | ◯ | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 |
74 | 6 | データ加工 | ★★ | データ加工 | 分析要件や各変数の分布などを踏まえて、必要に応じて量的変数のカテゴライズを設計・実行できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
75 | 7 | データ加工 | ★★ | データ加工 | 加工データに不具合がないか自分でテストを設計し、検証できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
76 | 8 | データ加工 | ★★★ | データ加工 | 加工データの統計的な俯瞰によって不具合の早期発見ができるとともに、統計的観点で次ステップの解析に耐えうるデータであるか評価できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
77 | 1 | Data visualization | ★ | 方向性定義 | 単に現場の作業支援する場合から、ビッグデータ中の要素間の関連性をダイナミックに表示する場合まで、可視化の目的の広がりについて理解している | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
78 | 2 | Data visualization | ★★ | 方向性定義 | 特異点を明確にする、データ解析部門以外の方にデータの意味を正しく伝える、現場の作業を支援するといった可視化の役割・方向性を判別できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
79 | 3 | Data visualization | ★★★ | 方向性定義 | データ量が膨大で構造が捉えにくい場合や、アウトプットが想像しにくい場合であっても、可視化の役割・方向性を判断できる(ビッグデータ中の要素間の関連性をダイナミックに表現する、細部に入りきらずに問に対して答えを出すなど) | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
80 | 4 | Data visualization | ★ | 軸だし | 散布図などの軸だしにおいて、縦軸・横軸の候補を適切に洗い出せる | Rによるデータサイエンス データ解析の基礎から最新手法まで | 統計学入門 (基礎統計学Ⅰ) | |
81 | 5 | Data visualization | ★ | 軸だし | 積み上げ縦棒グラフでの属性の選択など、適切な層化(比較軸)の候補を出せる | |||
82 | 6 | Data visualization | ★★ | 軸だし | 抽出したい意味にふさわしい軸・層化の粒度、順番を考慮して軸のきざみや層化方法を選択できる | |||
83 | 7 | Data visualization | ★★ | 軸だし | 膨大な属性を持つテーブルから目的に有用な属性を選択できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
84 | 8 | Data visualization | ★★★ | 軸だし | 非構造データから分析の軸になりうる候補を抽出し、付加すべき属性候補を適切に出せる | |||
85 | 9 | Data visualization | ★ | データ加工 | サンプリングやアンサンブル平均によってデータ量を減らして可視化できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
86 | 10 | Data visualization | ★★ | データ加工 | データの持つ分散量の観点で、高次のデータを主成分分析(PCA)などにより1~3次元のデータに変換できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
87 | 11 | Data visualization | ★★ | データ加工 | データの持つ特徴を統計量を使って効果的に可視化できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
88 | 12 | Data visualization | ★★★ | データ加工 | 非線形(高次の曲線、渦状の分布など)のデータであっても、高次のデータの次元を、次元圧縮(1~3次元のデータに変換)して、特徴(データの総分散量および各データの位置関係)を損なわずに可視化できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
89 | 13 | Data visualization | ★★★ | データ加工 | ネットワーク構造、グラフ構造などの表現において、ノードとエッジが増えすぎて特徴抽出が困難であっても、データの絞り込みや抽象度を上げることで適切に可視化できる | |||
90 | 14 | Data visualization | ★★★ | データ加工 | データ量が膨大(ペタバイト以上)なために、処理しきれず描画できない規模のデータに対しても、適度なデータや情報の抽出(間引き)、クラスタリングなどにより可視化しうる状態にデータを加工できる | |||
91 | 15 | Data visualization | ★★★ | データ加工 | 大規模なデータへのリアルタイムな可視化が求められる場合であっても、特異点の抽出や次元圧縮を通じてデータを圧縮し、リアルタイム表示できる | |||
92 | 16 | Data visualization | ★★★ | データ加工 | 大規模なデータへのリアルタイムな可視化が求められる場合であっても、データの分割転送、復元を通じて可視化できる | |||
93 | 17 | Data visualization | ★ | 表現・実装技法 | 適切な情報濃度(データインク比、データ濃度の概念)を理解し判断できる | 4 | 4 | |
94 | 18 | Data visualization | ★ | 表現・実装技法 | 不必要な誇張をしないための軸表現の基礎を理解できている(コラムチャートのY軸の基準点は「0」からを原則とし軸を切らないなど) | 4 | 4 | |
95 | 19 | Data visualization | ★ | 表現・実装技法 | 強調表現がもたらす効果を理解している(計量データに対しては位置やサイズ表現が色表現よりも効果的など) | 4 | 4 | |
96 | 20 | Data visualization | ★ | 表現・実装技法 | 1~3次元の比較において目的(比較、構成、分布、変化など)に応じた図表化ができる | 4 | 4 | |
97 | 21 | Data visualization | ★ | 表現・実装技法 | 端的に図表の変化をアニメーションで可視化できる(人口動態のヒストグラムが経年変化する様子を表現するなど) | 4 | 4 | |
98 | 22 | Data visualization | ★ | 表現・実装技法 | データ解析部門以外の方に、データの意味を伝えるサインとしての可視化ができる | 4 | 4 | |
99 | 23 | Data visualization | ★★ | 表現・実装技法 | 1~3次元の図表を拡張した多変量の比較(平行座標、散布図行列、テーブルレンズ、ヒートマップなど)を適切に可視化できる | 4 | 4 | |
100 | 24 | Data visualization | ★★ | 表現・実装技法 | ネットワーク構造、グラフ構造、階層構造などの統計的な関係性の可視化ができる | 4 | 4 | |
101 | 25 | Data visualization | ★★ | 表現・実装技法 | GPSデータなどを平面地図上に重ね合わせた可視化ができる | 4 | 4 | |
102 | 26 | Data visualization | ★★ | 表現・実装技法 | 挙動・軌跡の可視化ができる(店舗内でのユーザの回遊やEye trackingなど) | 4 | 4 | |
103 | 27 | Data visualization | ★★ | 表現・実装技法 | 適切な情報(意味)を押さえたうえで、デザイン性を高めるための要件提示ができる | 4 | 4 | |
104 | 28 | Data visualization | ★★★ | 表現・実装技法 | 人体、標高を持つ地図、球面などの上にデータを重ね合わせた可視化ができる | 4 | 4 | |
105 | 29 | Data visualization | ★★★ | 表現・実装技法 | 地図上で同時に動く数百以上のポイントにおける時間変化を動的に表現できる(多地点での風の動き、飛行物の軌跡など) | 4 | 4 | |
106 | 30 | Data visualization | ★ | 意味抽出 | データの性質を理解するために、データを可視化し眺めて考えることの重要性を理解している | 5 | 5 | |
107 | 31 | Data visualization | ★ | 意味抽出 | 外れ値を見い出すための適切な表現手法を選択できる | 5 | 5 | |
108 | 32 | Data visualization | ★ | 意味抽出 | データの可視化における基本的な視点を理解している(特異点、相違性、傾向性、関連性を見出すなど) | 5 | 5 | |
109 | 33 | Data visualization | ★★ | 意味抽出 | 統計値(代表値の指標、バラツキの指標、有意性の指標、関係式)を正しく読み、回帰式や移動平均線に意味付けできる | 5 | 5 | |
110 | 34 | Data visualization | ★★★ | 意味抽出 | 分類系の分析において、分布傾向から原因を追究、活用(分類に応じたDM発送による反応率の向上など)、ドリルダウンを計画し主導できる | 5 | 5 | |
111 | 35 | Data visualization | ★★★ | 意味抽出 | 予測系の分析において、関連性、特異点、変曲点から原因を追究、活用(予測結果に基づく発注管理など)を計画し主導できる | 5 | 5 | |
112 | 36 | Data visualization | ★★★ | 意味抽出 | 関連系の分析において関連が高い/低い原因、活用(リコメンドなど)、ドリルダウンを計画し主導できる | 5 | 5 | |
113 | 1 | 機械学習 | ★ | 機械学習 | 機械学習にあたる解析手法(Random Forestなど)の名称を3つ以上知っており、手法の概要を理解している | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
114 | 2 | 機械学習 | ★ | 機械学習 | 指示を受けて機械学習のモデルを使用したことがあり、どのような問題を解決することができるか理解している | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
115 | 3 | 機械学習 | ★★ | 機械学習 | 「教師あり学習」「教師なし学習」「強化学習」の違いを理解しており、データの内容や学習手法に応じて適切な学習データとテストデータを作成できる | ◯ | Rによるデータサイエンス データ解析の基礎から最新手法まで、6 | はじめてのパターン認識、6 |
116 | 4 | 機械学習 | ★★ | 機械学習 | 決定木とRandomForestの違いを説明できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
117 | 5 | 機械学習 | ★★ | 機械学習 | ROCカーブを用いてモデルの精度を評価できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
118 | 6 | 機械学習 | ★★ | 機械学習 | 混同行列(正誤分布のクロス表)を用いてモデルの精度を評価できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | 統計学入門 (基礎統計学Ⅰ)、はじめてのパターン認識 | |
119 | 7 | 機械学習 | ★★ | 機械学習 | 行列分解(非負値行列因子分解、特異値分解)をツールを使って実行でき、その結果を正しく解釈できる | はじめてのパターン認識、岩波データサイエンス Vol.5 | ||
120 | 8 | 機械学習 | ★★ | 機械学習 | サポートベクターマシンによる分析を、統計解析ツールを使って実行でき、その結果を解釈できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
121 | 9 | 機械学習 | ★★ | 機械学習 | アンサンブル学習(Random Forest、勾配ブースティングマシン、バギング)による分析を、統計解析ツールを使って実行でき、その結果を正しく解釈できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
122 | 10 | 機械学習 | ★★ | 機械学習 | ニューラルネットワークによる分析を、統計解析ツールを使って実行でき、その結果を正しく解釈できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
123 | 11 | 機械学習 | ★★★ | 機械学習 | 行列分解(非負値行列因子分解、特異値分解)を、目的に応じてパラメータを最適化して分析できる | はじめてのパターン認識、岩波データサイエンス Vol.5 | ||
124 | 12 | 機械学習 | ★★★ | 機械学習 | 課題やデータ型に応じて、サポートベクターマシンの適切なモデルを選定し、目的に応じてアルゴリズムの調整や設計ができる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
125 | 13 | 機械学習 | ★★★ | 機械学習 | 課題やデータ型に応じて、アンサンブル学習(Random Forest、勾配ブースティングマシン、バギング)の適切なモデルを選定し、目的に応じてアルゴリズムの調整や設計ができる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
126 | 14 | 機械学習 | ★★★ | 機械学習 | Deep Learning(深層学習)の適切なモデルを選定し、目的に応じてアルゴリズムの調整や設計ができる | |||
127 | 15 | 機械学習 | ★★★ | 機械学習 | モデル選択のための汎化能力評価(汎化誤差の推定)を、ホールドアウト法、交差確認法、一つ抜き法、ブートストラップ法を用いて行える | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識 | |
128 | 16 | 機械学習 | ★★★ | 機械学習 | 正則化(誤差関数に正則化項を追加することで、モデルの複雑度・自由度を抑制する)を利用して、過学習を防ぐことができる | Rによるデータサイエンス データ解析の基礎から最新手法まで | はじめてのパターン認識、岩波データサイエンス Vol.5 | |
129 | 17 | 機械学習 | ★★★ | 機械学習 | 高次元データの取り扱いについて、次元の呪いを考慮し適切に次元削減できる | はじめてのパターン認識 | ||
130 | 18 | 機械学習 | ★★★ | 機械学習 | 機械学習等の最新の論文を理解し、必要とあれば自分で実装し追試できる | |||
131 | 19 | 機械学習 | ★★★ | 機械学習 | バイアスとバリアンスの関係を理解し、モデル選定を適切に行える | はじめてのパターン認識 | ||
132 | 1 | 時系列分析 | ★ | 時系列分析 | 時系列データについて説明ができる(時系列グラフ、周期性、移動平均など) | Rによるデータサイエンス データ解析の基礎から最新手法まで、Rによる時系列分析入門 | 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) | |
133 | 2 | 時系列分析 | ★★ | 時系列分析 | 時系列データの時点差での相関関係を、系列相関やコレログラムを利用して評価ができる | Rによるデータサイエンス データ解析の基礎から最新手法まで、Rによる時系列分析入門 | 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) | |
134 | 3 | 時系列分析 | ★★ | 時系列分析 | 時系列データに対し、ツールを使用して、分析結果の比較を行い、適切なモデルを選択できる(自己回帰モデル、統合モデル、移動平均モデル、ARIMA、SARIMAなど) | Rによるデータサイエンス データ解析の基礎から最新手法まで、Rによる時系列分析入門 | 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) | |
135 | 4 | 時系列分析 | ★★ | 時系列分析 | 時系列分析の特徴(通常は、トレンドおよび季節成分を省いたランダム部分を、定常時系列として分析する手法であること)を理解している | Rによるデータサイエンス データ解析の基礎から最新手法まで、Rによる時系列分析入門 | 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) | |
136 | 5 | 時系列分析 | ★★★ | 時系列分析 | 状態空間モデルにおいて、カルマンフィルタを用いて、観測値から欠測値の補間をし、予測モデルを構築できる | カルマンフィルタ ―Rを使った時系列予測と状態空間モデル― (統計学One Point 2)、Rによるベイジアン動的線形モデル (統計ライブラリー) | カルマンフィルタ ―Rを使った時系列予測と状態空間モデル― (統計学One Point 2)、Rによるベイジアン動的線形モデル (統計ライブラリー) | |
137 | 6 | 時系列分析 | ★★★ | 時系列分析 | 非線形・非ガウス型状態空間モデルにおいて、モンテカルロ・フィルタを用いて、複雑な時系列システムの予測モデルを構築できる | カルマンフィルタ ―Rを使った時系列予測と状態空間モデル― (統計学One Point 2)、Rによるベイジアン動的線形モデル (統計ライブラリー) | カルマンフィルタ ―Rを使った時系列予測と状態空間モデル― (統計学One Point 2)、Rによるベイジアン動的線形モデル (統計ライブラリー) | |
138 | 7 | 時系列分析 | ★★★ | 時系列分析 | ピリオドグラムにおいて、FFT(Fast Fourier Transform)など計算量を抑制する方法により、ピリオドグラムの計算ができる | |||
139 | 1 | 言語処理 | ★ | 言語処理 | 形態素解析や係り受け解析の概念を理解している | 7 | 言語処理のための機械学習入門 (自然言語処理シリーズ) | |
140 | 2 | 言語処理 | ★★ | 言語処理 | 形態素解析や係り受け解析のツールを適切に使い、基本的な文書構造解析を行うことができる | ◯ | 7 | 言語処理のための機械学習入門 (自然言語処理シリーズ) |
141 | 3 | 言語処理 | ★★ | 言語処理 | TF-IDFやcos類似度などの基本的なアルゴリズムを使い、単語ベクトルの作成や文書群の類似度計算を行うことができる | 7 | 言語処理のための機械学習入門 (自然言語処理シリーズ) | |
142 | 4 | 言語処理 | ★★ | 言語処理 | Precision、Recall、F値といった評価尺度を理解し、実際の精度評価を行うことができる | 7 | 言語処理のための機械学習入門 (自然言語処理シリーズ) | |
143 | 5 | 言語処理 | ★★★ | 言語処理 | 形態素解析・構文解析・固有表現抽出のアルゴリズムを理解し、使いこなせる | 7 | 言語処理のための機械学習入門 (自然言語処理シリーズ) | |
144 | 6 | 言語処理 | ★★★ | 言語処理 | N-gram言語モデルの構築方法と代表的なスムージングアルゴリズムを理解し、使いこなせる | 7 | 言語処理のための機械学習入門 (自然言語処理シリーズ) | |
145 | 7 | 言語処理 | ★★★ | 言語処理 | 索引型の全文検索の仕組み(転置インデックス、スコアリング、関連性フィードバック)を理解し、使いこなせる | 7 | ||
146 | 8 | 言語処理 | ★★★ | 言語処理 | Trie、Suffix Arrayなどの代表的な高速文字列検索アルゴリズムを理解し、使いこなせる | 7 | ||
147 | 9 | 言語処理 | ★★★ | 言語処理 | 潜在的意味解析(LSA)の仕組みを理解し、使いこなせる | データマイニング入門、7 | ||
148 | 10 | 言語処理 | ★★★ | 言語処理 | データの特性に合わせ、適切な言語処理アルゴリズムを選択し、誤り分析、辞書作成などを行い、成果を最大化することができる | 7 | ||
149 | 1 | 画像処理 | ★ | 画像処理 | 画像映像のデジタル表現の仕組みと代表的な画像映像フォーマットの概念を理解している | 8 | 8 | |
150 | 2 | 画像処理 | ★★ | 画像処理 | 主要な画像映像フォーマットの種類および特性を理解し、適切に使い分けたり変換することができる | 8 | 8 | |
151 | 3 | 画像処理 | ★★★ | 画像処理 | 画像に対して、目的に応じた適切な色変換や補正、フィルタ処理などを行うことができる | 8 | 8 | |
152 | 4 | 画像処理 | ★★★ | 画像処理 | 問題に合わせてパターン検出や画像特徴抽出などの既存手法から適切なものを選択し、画像の処理や解析に用いることができる | 8 | 8 | |
153 | 5 | 画像処理 | ★★★ | 画像処理 | オプティカルフローやトラッキング手法などにより映像中の人や物体の移動を分析することができる | 8 | 8 | |
154 | 6 | 画像処理 | ★★★ | 画像処理 | 目的に合わせてショット検出、物体検出、行動認識などの手法を用い、映像中の特定のイベントを効率よく検出することができる | 8 | 8 | |
155 | 1 | 音声処理 | ★ | 音声処理 | 代表的な音声フォーマットの概要を理解している | 8 | 8 | |
156 | 2 | 音声処理 | ★★ | 音声処理 | 代表的な音声フォーマットを理解し、波形データの抽出をすることができる | 8 | 8 | |
157 | 3 | 音声処理 | ★★ | 音声処理 | 代表的な音声処理分野の概念を理解し、説明することができる | 8 | 8 | |
158 | 4 | 音声処理 | ★★★ | 音声処理 | 代表的な音声信号分析手法を理解し、使いこなすことができる | 8 | 8 | |
159 | 5 | 音声処理 | ★★★ | 音声処理 | 目的に合わせて、音声認識のパラメータ調整や手法変更、言語モデル・音響モデルの差し替えができ、音声認識の精度評価をすることがでる | 8 | 8 | |
160 | 1 | パターン発見 | ★★ | パターン発見 | 条件Xと事象Yの関係性をリフト値を用いて評価できる | |||
161 | 2 | パターン発見 | ★★ | パターン発見 | アプリオリアルゴリズムのアソシエーション分析の入力パラメータ値を調整して出力件数を調整できる | Rによるデータサイエンス データ解析の基礎から最新手法まで | ||
162 | 3 | パターン発見 | ★★★ | パターン発見 | レコメンデーション業務の要件から適切な協調フィルタリングロジック(ユーザベース、アイテムベースなど)の選定を行うことができる | |||
163 | 1 | グラフィカルモデル | ★★ | グラフィカルモデル | パス解析において、変数間の因果関係をパス図を用いて説明できる | 原因をさぐる統計学―共分散構造分析入門 (ブルーバックス) | ||
164 | 2 | グラフィカルモデル | ★★ | グラフィカルモデル | ベイジアンネットワーク分析結果のネットワーク図から目的事象の同時確率を算出できる | データマイニング入門 | ||
165 | 3 | グラフィカルモデル | ★★ | グラフィカルモデル | ツールを用いて共分散構造分析(構造方程式モデリング:SEM)を行い、因果関係を説明できる | 原因をさぐる統計学―共分散構造分析入門 (ブルーバックス) | ||
166 | 1 | 統計数理応用 | ★ | 統計数理基礎 | ベイズの定理を理解している | 統計学入門 (基礎統計学Ⅰ)、基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門 | ||
167 | 2 | 統計数理応用 | ★ | 統計数理応用 | ボロノイ図の概念と活用方法を説明できる | 岩波データサイエンス Vol.4 | ||
168 | 3 | 統計数理応用 | ★★★ | 統計数理応用 | 空間的自己相関の手法を用いて空間的な類似性を数値化できる | |||
169 | 4 | 統計数理応用 | ★★★ | 統計数理応用 | 当該分野に則したベイズ統計に基づくアルゴリズムを理解し、モデルを構築できる | StanとRでベイズ統計モデリング (Wonderful R)、岩波データサイエンス Vol.1 | 基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門、岩波データサイエンス Vol.1 | |
170 | 5 | 統計数理応用 | ★★★ | 統計数理応用 | ベイズ統計と頻度論による従来の統計との違いを、尤度、事前確率、事後確率などの用語を用いて説明できる | StanとRでベイズ統計モデリング (Wonderful R)、岩波データサイエンス Vol.1 | 基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門、岩波データサイエンス Vol.1 | |
171 | 1 | シミュレーション/データ同化 | ★★ | シミュレーション/データ同化 | 離散型・連続型シミュレーションについて、説明できる(モンテカルロ、ヒストリカル、Agentベースなど) | |||
172 | 2 | シミュレーション/データ同化 | ★★★ | シミュレーション/データ同化 | データ同化(データを用いてシミュレーション内の不確実性を減少させる計算技法)の概念を理解している | |||
173 | 3 | シミュレーション/データ同化 | ★★★ | シミュレーション/データ同化 | シミュレーションにおける問題を理解し、対処を考えることができる(初期条件・境界条件・パラメータの不確実性、データ分布の不均一性、実験計画の最適性など) | |||
174 | 1 | 最適化 | ★★ | 最適化 | 線形計画法について、説明することができる | これなら分かる最適化数学―基礎原理から計算手法まで | ||
175 | 2 | 最適化 | ★★ | 最適化 | 連続最適化(制約なし)において、アルゴリズムを説明することができる(ニュートン法、最急降下法など) | これなら分かる最適化数学―基礎原理から計算手法まで | ||
176 | 3 | 最適化 | ★★ | 最適化 | 制約がある最適化問題において、代表的な組み合わせ解法の概念を説明することができる(一般的な手法( Brute-force search、greedy algorithmなど)、ヒューリスティック(局所探索、山登りなど)、メタ解法(GA、TS、SAなど)) | |||
177 | 4 | 最適化 | ★★★ | 最適化 | 代表的な最適化問題に関して、モデリングを行い、ソルバーを使い、最適化できる(ナップザック問題、ネットワークフロー問題、巡回路問題など) | |||
178 | 5 | 最適化 | ★★★ | 最適化 | ビジネス課題にあわせて、変数、目的関数、制約を定式化し、線形・非線形を問わず、最適化モデリングができる | これなら分かる最適化数学―基礎原理から計算手法まで | ||
179 | 6 | 最適化 | ★★ | 最適化 | 凸関数とは何かを説明でき、目的関数が凸関数で実行可能な領域が凸集合である場合の数理計画法を凸計画法ということを理解している | これなら分かる最適化数学―基礎原理から計算手法まで | ||
180 | 7 | 最適化 | ★★ | 最適化 | 複数のA/Bテストの統計的結果を踏まえ、デザイン等の最適化を行う手法を回すことができる |
-
統計学基礎に関するRを用いた本は多数ある。Rクックブックなど。 ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11 ↩12 ↩13 ↩14 ↩15 ↩16 ↩17 ↩18 ↩19 ↩20 ↩21 ↩22 ↩23 ↩24
-
統計学入門 (基礎統計学Ⅰ)東京大学出版会を挙げたが類書が多数あり気に入った本でよいと思う。バイオサイエンスの統計学―正しく活用するための実践理論は統計学入門 (基礎統計学Ⅰ)より平易で同書にないノンパラメトリックな手法もあり、よいかも知れない。 ↩
-
計量経済学 (y21)。データ分析のために計量経済学の本を読まなくとも良いと思うが、ついでに買った本が参考になったので。 ↩
-
可視化、ビジュアライゼーションという分野となり本が色々出ているが不勉強であまり知らず。 ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11 ↩12 ↩13 ↩14 ↩15 ↩16 ↩17 ↩18 ↩19 ↩20 ↩21 ↩22 ↩23 ↩24 ↩25 ↩26
-
Rを使った自然言語処理の本も複数出ているがあまり経験なく不明。 ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10
-
経験がほとんどなく分かりません。 ↩ ↩2 ↩3 ↩4 ↩5 ↩6 ↩7 ↩8 ↩9 ↩10 ↩11 ↩12 ↩13 ↩14 ↩15 ↩16 ↩17 ↩18 ↩19 ↩20 ↩21 ↩22