2
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

2025年版:データサイエンティスト協会スキルチェックリストver.5.0「データサイエンス力」に必要な本

Last updated at Posted at 2025-02-16

DS協会のデータサイエンティストスキルチェックリストがver.5.0になっています。

昔の記事、

ではなかった「ビジネス力」についてはすでにQiita記事にしました。

ついに「データサイエンス力」(全項目!)の推薦書籍リストを作成しました。ご賞味あれ!
(「データエンジニア力」については知見が少ないのでできないかも、作るかも)

  • 当然ながら!以下の項目全てに私が精通しているわけではありません。この本に書いてあったな、レベルも多いです
    • ただ、チェックリストってあちこちで引用はされますがそれっぱなしじゃないですか?それを学ぶにはどうしたらいいか?必ずしも書籍だけじゃないと思いますけれど
    • こういうの誰もやってくれないので。書きました!
  • 出来るだけ少ない本でカバーできるように心がけましたが、以下などご容赦あれ。反論などは遠慮なくコメント欄にて
    • 本Aでカバーできて本Bは不要では?
    • 難易度がゴツゴツとか
  • 各項目内では、入門的な書籍、実装に関する書籍、本格的な書籍、の順に概ね並べています
    • 実装に関しては原則Pythonとしました。一部Rありです
  • 特に下記についてはほとんど知見がなく、「申し訳ないですが知見なし」、一部項目では代表的と思われる既読書を挙げています
    • 音声解析・生成
    • 画像解析・生成
  • 宣伝、必須項目だけですけれど、解説してみたらこうなります、みたいのを書き出してます。

採用書籍

採用書籍一覧

妥協しないデータ分析のための 微積分+線形代数入門
基礎から学ぶ統計学
公式と例題で学ぶ統計学入門
分析者のためのデータ解釈学入門
統計検定準1級対応 統計学実践ワークブック
はじめてのパターン認識
本質を捉えたデータ分析のための分析モデル入門
Pythonによる地理空間データ分析
Pythonでスラスラわかる ベイズ推論「超」入門
標準 ベイズ統計学
Pythonではじめるベイズ機械学習入門
仕事ではじめる機械学習 第2版
A/Bテスト実践ガイド
Oウェブ最適化ではじめる機械学習
因果推論: 基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ
O構造的因果モデルの基礎
O統計的因果探索
Oベイジアンネットワーク
Pythonライブラリによる因果推論・因果探索[概念と実践]
O原因をさぐる統計学―共分散構造分析入門
反実仮想機械学習
Pythonによる時系列分析
時系列解析: 自己回帰型モデル・状態空間モデル・異常検知
ORによるベイジアン動的線形モデル
O図解入門 よくわかる最新実験計画法の基本と仕組み[第2版]
改訂新版 前処理大全〜SQL/pandas/Polars実践テクニック
Kaggleで勝つデータ分析の技術
機械学習のための特徴量エンジニアリング
事例で学ぶ特徴量エンジニアリング
Python時系列分析クックブック I: 前処理
Python時系列分析クックブック II: モデル・機械学習
指標・特徴量の設計から始める データ可視化学入門
入門 サンプルサイズ設計―基本理論から計算方法まで
Python機械学習プログラミング PyTorch&scikit-learn編
Pythonではじめる教師なし学習
Oマーケティングデータ分析 (Pythonによるビジネスデータサイエンス 3)
O現代マーケティング・リサーチ〔新版〕
データ分析者のためのPythonデータビジュアライゼーション入門
OPython インタラクティブ・データビジュアライゼーション入門
O人文・社会科学の統計学 (基礎統計学)
ネットワーク科学入門: Pythonで学ぶデータ分析とモデリング
Oはじめての知識グラフ構築ガイド
Oグラフニューラルネットワーク
Apache Spark徹底入門
ビジネスダッシュボード 設計・実装ガイドブック
需要予測の戦略的活用
XAI(説明可能なAI)
解釈可能なAI
Federated Learning: プライバシー保護下における機械学習
Human-in-the-Loop機械学習
OData-centric AI入門
深層学習教科書 ディープラーニング G検定公式テキスト 第3版
ディープラーニングを支える技術
ディープラーニングを支える技術〈2〉
ゼロから作るDeep Learning
深層学習 改訂第2版
生成 Deep Learning 第2版
ゼロから作るDeep Learning
ゼロから作るDeep Learning ❷ ―自然言語処理編
ゼロから作るDeep Learning ❹ ―強化学習編
ゼロから作るDeep Learning ❺ ―生成モデル編
O転移学習
強化学習 (機械学習プロフェッショナルシリーズ)
経済・ファイナンスデータの計量時系列分析
Pythonではじめる異常検知入門
O推薦システム実践入門
O機械学習による検索ランキング改善ガイド
実践Data Scienceシリーズ Pythonではじめるテキストアナリティクス入門
実践 自然言語処理
自然言語処理の教科書
大規模言語モデル入門
大規模言語モデル入門Ⅱ〜生成型LLMの実装と評価
IT Text 自然言語処理の基礎
O実践 Pythonによるベイズ分析とトピックモデル
Oトピックモデル
O実践 生成AIの教科書
ディジタル画像処理[改訂第二版]
OPythonで学ぶ音声認識
OPythonで学ぶ音源分離
OPythonで学ぶ音声合成
O統計学OnePoint26 データ同化
最適化手法入門
OPythonコンピュータシミュレーション入門 人文・自然・社会科学の数理モデル

本編

スキルカテゴリ サブカテゴリ スキルレベル チェック項目 必須 推薦書籍
数学的理解 線形代数基礎 ベクトルの内積に関する計算方法を理解し、線形式をベクトルの内積で表現できる 妥協しないデータ分析のための 微積分+線形代数入門
数学的理解 線形代数基礎 行列同士、および行列とベクトルの計算方法を正しく理解し、複数の線形式を行列の積で表現できる 妥協しないデータ分析のための 微積分+線形代数入門
数学的理解 線形代数基礎 逆行列の定義、および逆行列を求めることにより行列表記された連立方程式が解けることを理解している 妥協しないデータ分析のための 微積分+線形代数入門
数学的理解 線形代数基礎 固有ベクトルおよび固有値の意味を理解している 妥協しないデータ分析のための 微積分+線形代数入門
数学的理解 微分・積分基礎 微分により計算する導関数が傾きを求めるための式であることを理解している 妥協しないデータ分析のための 微積分+線形代数入門
数学的理解 微分・積分基礎 2変数以上の関数における偏微分の計算方法を理解しており、勾配を求めることができる 妥協しないデータ分析のための 微積分+線形代数入門
数学的理解 微分・積分基礎 積分と面積の関係を理解し、確率密度関数を定積分することで確率が得られることを説明できる 妥協しないデータ分析のための 微積分+線形代数入門
数学的理解 集合論基礎 和集合、積集合、差集合、対称差集合、補集合についてベン図を用いて説明できる 公式と例題で学ぶ統計学入門1
数学的理解 集合論基礎 論理演算と集合演算の対応を理解している(ANDが積集合に対応するなど) 公式と例題で学ぶ統計学入門1
科学的解析の基礎 統計数理基礎 順列や組合せの式 nPr, nCr を理解し、適切に使い分けることができる 公式と例題で学ぶ統計学入門
科学的解析の基礎 統計数理基礎 確率に関する基本的な概念の意味を説明できる(確率、条件付き確率、期待値、独立など) 公式と例題で学ぶ統計学入門
科学的解析の基礎 統計数理基礎 平均、中央値、最頻値の算出方法の違いを説明できる
科学的解析の基礎 統計数理基礎 与えられたデータにおける分散、標準偏差、四分位、パーセンタイルを理解し、目的に応じて適切に使い分けることができる 分析者のためのデータ解釈学入門
科学的解析の基礎 統計数理基礎 母(集団)平均と標本平均、不偏分散と標本分散がそれぞれ異なることを説明できる 公式と例題で学ぶ統計学入門
科学的解析の基礎 統計数理基礎 標準正規分布の平均と分散の値を知っている
科学的解析の基礎 統計数理基礎 相関関係と因果関係の違いを説明できる 分析者のためのデータ解釈学入門
科学的解析の基礎 統計数理基礎 名義尺度、順序尺度、間隔尺度、比例尺度の違いを説明できる 分析者のためのデータ解釈学入門
科学的解析の基礎 統計数理基礎 ピアソンの相関係数の分母と分子を説明できる 分析者のためのデータ解釈学入門
科学的解析の基礎 統計数理基礎 5つ以上の代表的な確率分布を説明できる
科学的解析の基礎 統計数理基礎 二項分布は試行回数が増えていくとどのような分布に近似されるかを知っている 公式と例題で学ぶ統計学入門
科学的解析の基礎 統計数理基礎 変数が量的、質的どちらの場合でも関係の強さを算出できる 公式と例題で学ぶ統計学入門
科学的解析の基礎 統計数理基礎 指数関数とlog関数の関係を理解し、片対数グラフ、両対数グラフ、対数化されていないグラフを適切に使いわけることができる 2
科学的解析の基礎 統計数理基礎 ベイズの定理を説明できる 公式と例題で学ぶ統計学入門
科学的解析の基礎 統計数理基礎 ★★ ベイズ推論が学習や予測、モデル評価などをすべて確率分布上の計算問題として扱っていることにより、これらの要素を確率分布として扱わない手法と比べ、どのようなメリットを生み出しているか理解している
科学的解析の基礎 統計数理基礎 ★★ 自己情報量やエントロピーの意味について説明できる 妥協しないデータ分析のための 微積分+線形代数入門
科学的解析の基礎 統計数理基礎 ★★ カルバック・ライブラー情報量(KL divergence)、フィッシャー情報量の意味や利用方法について説明できる
科学的解析の基礎 統計数理基礎 ★★ 尤度と最尤推定についての説明ができる(尤度関数、ネイマンの分解定理、十分統計量) 統計検定準1級対応 統計学実践ワークブック
科学的解析の基礎 洞察 分析、図表から直接的な意味合いを抽出できる(バラツキ、有意性、分布傾向、特異性、関連性、変曲点、関連度の高低など) 分析者のためのデータ解釈学入門
科学的解析の基礎 洞察 想定に影響されず、数量的分析結果を客観的に解釈できる 分析者のためのデータ解釈学入門
科学的解析の基礎 洞察 ★★ 各種の解析手法(主成分分析、クラスター分析、決定木分析など)の結果を解釈し、意味合いを適切に表現・説明できる
科学的解析の基礎 性質・関係性 適切なデータ区間設定でヒストグラムを作成し、データのバラつき方を把握できる
科学的解析の基礎 性質・関係性 適切な軸設定でクロス集計表を作成し、属性間のデータの偏りを把握できる
科学的解析の基礎 性質・関係性 量的変数の散布図を描き、2変数の関係性を把握できる
科学的解析の基礎 性質・関係性 ★★ 多重(質問間)クロス集計表などを駆使して、データから適切なインサイトを得ることができる(データの偏りの発見や独立性の検定など)
科学的解析の基礎 性質・関係性 ★★ 主成分分析と因子分析の違いや使い分けを説明し、実施できる
科学的解析の基礎 性質・関係性 ★★ 正準相関分析を説明し、実施できる
科学的解析の基礎 性質・関係性 ★★ 因子分析における、因子負荷量の意味を理解し、因子軸の回転(プロマックス回転、バリマックス回転など)について実施できる
科学的解析の基礎 性質・関係性 ★★ コレスポンデンス(対応)分析と数量化III類を説明し、実施できる
科学的解析の基礎 性質・関係性 ★★ コンジョイント分析を自ら設計し、効用値と寄与率からモデルを評価できる 現代マーケティング・リサーチ〔新版〕3
科学的解析の基礎 性質・関係性 ★★ 適切な類似度を設定した上で、多次元尺度構成法を用いてポジショニングマップを描くことができる
科学的解析の基礎 性質・関係性 ★★ 空間的自己相関の手法を用いて空間的な類似性を数値化できる
科学的解析の基礎 性質・関係性 ★★ 行列分解(非負値行列因子分解[Nonーnegative Matrix Factorization:NMF]、特異値分解)を、目的に応じてパラメータを最適化して分析できる 4
科学的解析の基礎 性質・関係性 ★★★ テンソル分解(非負値テンソル因子分解[Non-negative Tensor Factorization:NTF]、CP分解[Canonical Polyadic Decomposition:CPD]、Tucker分解など)を、対象データの特性や目的に応じて適用する事で、より複合的な要因の性質や関係性を分析できる 推薦システム実践入門4
科学的解析の基礎 推定・検定 点推定と区間推定の違いを説明できる
科学的解析の基礎 推定・検定 統計的仮説検定において帰無仮説と対立仮説の違いを説明できる
科学的解析の基礎 推定・検定 第1種の過誤、第2種の過誤、p値、有意水準の意味を説明できる
科学的解析の基礎 推定・検定 片側検定と両側検定の違いを説明できる
科学的解析の基礎 推定・検定 検定する対象となるデータの対応の有無を考慮した上で適切な検定手法(t検定, z検定など)を選択し、適用できる
科学的解析の基礎 推定・検定 ★★ 検定力やサンプルサイズ、分布など対象のデータを考慮したうえで適切な検定手法を選択し、結果を評価できる(パラメトリックな多群の検定、クラスカル・ウォリス検定、カイ二乗検定など)
科学的解析の基礎 推定・検定 ★★ p値だけでは仮説やモデルの正しさを評価できないことを理解し、p値以外のアプローチ(信頼区間、信用区間、ベイズファクターなど)と併せて透明性の高いデータ分析や結果の報告ができる
科学的解析の基礎 アソシエーション分析 条件Xと事象Yの関係性を信頼度、支持度、リフト値を用いて評価できる
科学的解析の基礎 アソシエーション分析 ★★ アプリオリアルゴリズムのアソシエーション分析において、パラメータをチューニングして出力件数を調整できる マーケティングデータ分析 (Pythonによるビジネスデータサイエンス 3)
科学的解析の基礎 因果推論 ある特定の処置に対して、その他の変数や外部の影響を除いた効果を測定するためには、処置群(実験群)と対照群に分けて比較・分析する必要があることを知っている
科学的解析の基礎 因果推論 ある変数が他の変数に与える影響(因果効果)を推定したい場合、その双方に影響を与える共変量(交絡因子)の考慮が重要であると理解している(喫煙の有無と疾病発症の双方に年齢が影響している場合など)
科学的解析の基礎 因果推論 分析の対象を定める段階で選択バイアスが生じる可能性があることを理解している(途中離脱者の除外時、欠損データの除外時など)
科学的解析の基礎 因果推論 ★★ 分析目的において測定したい効果に関する変数を把握した上で、ランダム化比較試験や層別化などの方法を用いてその他の影響(各群の特性や背景)が均等になるように処置群・対照群を設計することができる
科学的解析の基礎 因果推論 ★★ 統計的因果推論における因果効果(平均処置効果、Average Treatment Effect; ATEなど)について説明できる 因果推論: 基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ
科学的解析の基礎 因果推論 ★★ 統計的因果推論における、交換性(exchangeability)、強く無視できる割り当て条件(Conditional Exchangeability)、一致性(consistency)、正値性(positivity)について説明できる 因果推論: 基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ
科学的解析の基礎 因果推論 ★★ ある変数の影響(因果効果)を推定したいがランダム化比較試験の実施が難しい場合、傾向スコアによる手法(傾向スコアマッチング、IPW、Doubly Robustなど)を用いることで観測されている共変量の影響を最小限に抑えることができる 因果推論: 基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ
科学的解析の基礎 因果推論 ★★ 推薦システムのような介入方策を、その方策とは別の方策で集められたデータを用いて評価するOff-Policy Evaluation(OPE)の手法について説明できる(Direct Method (DM)、Inverse Probability Weighting (IPW)、Doubly Robust (DR)など)
データの理解・検証 データ確認 単独のグラフに対して、集計ミスや記載ミスなどがないかチェックできる 分析者のためのデータ解釈学入門
データの理解・検証 データ確認 データ項目やデータの量・質について、指示のもと正しく検証し、結果を説明できる 分析者のためのデータ解釈学入門
データの理解・検証 データ確認 ★★ 複数のグラフや集計表で構成されているレポートに対して、全体として集計ミスや不整合が起きていないかチェックできる 分析者のためのデータ解釈学入門
データの理解・検証 データ確認 ★★ データ項目やデータの量・質の検証方法を計画・実行し、その結果をもとにその後の分析プロセスを立案・修正できる 分析者のためのデータ解釈学入門
データの理解・検証 データ確認 ★★★ 多数のグラフ、集計表、外部の統計情報、高度なデータ解析手法を用いた解析結果などを含むレポートに対して、不整合が起きていないか、妥当性の高い論理構造であるかチェックできる 5
データの理解・検証 データ確認 ★★★ 分析に必要なデータを想定し、現在取得可能なデータの量・質で分析に耐えうるか、分析目的が達成可能であるかを判断できる 入門 サンプルサイズ設計―基本理論から計算方法まで
データの理解・検証 俯瞰・メタ思考 データが生み出される経緯・背景を考え、データを鵜呑みにはしないことの重要性を理解している 分析者のためのデータ解釈学入門
データの理解・検証 俯瞰・メタ思考 ★★ データを俯瞰して、変化をすみやかに察知するとともに、変化が誤差の範囲かどうか判断できる 分析者のためのデータ解釈学入門
データの理解・検証 俯瞰・メタ思考 ★★★ 複数のデータを多元的かつ大局的に俯瞰して、大きな動きや本質的な事実を見抜くことができる 5
データの理解・検証 データ理解 どのような知見を得たいのか、目的に即して集計し、データから事実を把握できる 分析者のためのデータ解釈学入門
データの理解・検証 データ理解 データから事実を正しく浮き彫りにするために、集計の切り口や比較対象の設定が重要であることを理解している 分析者のためのデータ解釈学入門
データの理解・検証 データ理解 普段業務で扱っているデータの発生トリガー・タイミング・頻度などを説明でき、また基本統計量や分布の形状を把握している
データの理解・検証 データ理解 時系列データとは何か、その基礎的な扱いについて説明できる(時系列グラフによる周期性やトレンドの確認、移動平均、回帰や相関計算における注意点など) Pythonによる時系列分析
データの理解・検証 データ理解 ★★ 生データを眺めて、どのような切り口で集計・比較すればデータの理解や事実の把握につながるか検討できる 分析者のためのデータ解釈学入門
データの理解・検証 データ理解 ★★ 扱ったことのない新たなデータに内容の不明な項目があっても、生データの閲覧や集計を通して何の項目かあたりをつけられる 分析者のためのデータ解釈学入門
データの理解・検証 データ理解 ★★ 扱っているデータの関連業務の知識と分析目的を踏まえて、どんな説明変数が効きそうか、あたりをつけて洗い出し、構造的に整理できる(変数のグループ化や階層化など) 5
データの理解・検証 データ理解 ★★★ データの変化から起きている事象の背景を構造的に推察し、仮説を立て、検証方法を企画実行できる 5
データの理解・検証 データ理解 ★★★ データを入手する前に、存在するであろうデータとその分布を想定して基礎俯瞰の方向性やその結果の想定ができ、それを前提とした解析方法の検討・ラフ設計をすることができる 5
データの理解・検証 データ理解 ★★★ 扱ったことのない新たなデータであっても、ER図やテーブル定義、生データなどを見ることによってデータの発生源や欠損値の意味などのあたりをつけられる 仕事ではじめる機械学習 第2版5
データの理解・検証 データ粒度 ★★ 分析目的とデータの量・質を踏まえて、想定されるメッセージと統計的観点から適切な集計単位やサンプリング率を決定できる
データの理解・検証 データ粒度 ★★★ 分析目的とデータの量・質に加えて、想定しているメッセージ、深掘りの方向性・可能性、処理負荷、データ処理フローなども総合的に踏まえた最適な集計単位やサンプリング率を決定できる 5
データ準備 サンプリング 標本誤差およびサンプリングバイアス、およびそれぞれの違いについて説明できる 分析者のためのデータ解釈学入門
データ準備 サンプリング 実験計画法の基本的な3原則(局所管理化、反復、無作為化)について説明できる 図解入門 よくわかる最新実験計画法の基本と仕組み[第2版]
データ準備 サンプリング ★★ 調査対象の母集団の規模・特性や調査コストに応じて、多段階抽出法や層化抽出法など適切な標本抽出方法を計画できる 人文・社会科学の統計学 (基礎統計学)6
データ準備 サンプリング ★★ 属性数と水準数が決まれば適切な直交表を選択し実験計画ができる 図解入門 よくわかる最新実験計画法の基本と仕組み[第2版]
データ準備 サンプリング ★★ サンプルサイズを見れば信頼水準を95%としたときの標本誤差レベルについて概ね判断できる 入門 サンプルサイズ設計―基本理論から計算方法まで
データ準備 データクレンジング 外れ値・異常値・欠損値とは何かを理解し、指示のもと適切に検出と除去・変換などの対応ができる
データ準備 データクレンジング ★★ 各変数の分布・欠損率などをふまえて、外れ値・異常値・欠損値の対応方針を決定できる
データ準備 データ加工 標準化とは何かを理解し、適切に標準化が行える
データ準備 データ加工 名義尺度の変数をダミー変数に変換できる
データ準備 データ加工 ★★ 加工データに不具合がないか確認方法を設計し、検証できる(合計値の照合や、分布の確認など検証項目の設計と実行)
データ準備 データ加工 ★★★ 加工データの統計的な俯瞰によって不具合の早期発見ができるとともに、統計的観点で次ステップの解析に耐えうるデータであるか評価できる 仕事ではじめる機械学習 第2版5
データ準備 特徴量エンジニアリング 数値データの特徴量化(二値化/離散化、対数変換、スケーリング/正規化、交互作用特徴量の作成など)を行うことができる
データ準備 特徴量エンジニアリング ★★ カテゴリデータの特徴量化ができる(ダミー変数化、特徴量ハッシング[カテゴリ数が多い場合の値の割り当て]、ビンカウンティング、バックオフ、最小カウントスケッチ[レアなカテゴリのまとめ処理]など)
データ準備 特徴量エンジニアリング ★★ k-means、k近傍法、t-SNEなどを用いた、類似度または非類似度に着目した特徴量を作成できる
データ準備 特徴量エンジニアリング ★★ 周期的な意味合いをもつ特徴量を適切な周期の三角関数を用いて変換できる 7
データ準備 特徴量エンジニアリング ★★ 時系列データに対し周期性やトレンドなどを考慮して、階差、移動平均、移動標準偏差、移動最大、移動最小、ラグなどの特徴量を作成できる
データ準備 特徴量エンジニアリング ★★ 複数のデータセットから、結合や集計などを組み合わせ、有効な特徴量を作成できる(ユーザごとの過去1ヵ月間の購買金額合計など)
データ準備 特徴量エンジニアリング ★★★ ドメイン知識に基づく洞察から有効な特徴量を効率的に作成できる(類似商品との価格差、借入額と返済額の比など) 事例で学ぶ特徴量エンジニアリング8
データ準備 特徴量エンジニアリング ★★★ 有用と思われるデータを新たに調達し、既知のデータと組み合わせることで有効な特徴量を作成できる(業界特有なカレンダー、地理空間的な類似度を考慮した集計値など) 事例で学ぶ特徴量エンジニアリング8
データ可視化 方向性定義 データの性質を理解するために、データを可視化し眺めて考えることの重要性を理解している 指標・特徴量の設計から始める データ可視化学入門
データ可視化 方向性定義 可視化における目的の広がりについて概略を説明できる(単に現場の作業支援する場合から、ビッグデータ中の要素間の関連性をダイナミックに表示する場合など) 指標・特徴量の設計から始める データ可視化学入門
データ可視化 方向性定義 ★★ 可視化の役割・方向性を判別できる
  • 特異点を明確にする- データ解析部門以外の方にデータの意味を正しく伝える
  • 現場の作業を支援するなど
指標・特徴量の設計から始める データ可視化学入門
データ可視化 方向性定義 ★★★ データ量が膨大で構造が捉えにくい場合や、アウトプットが想像しにくい場合であっても、可視化の役割・方向性を判断できる(ビッグデータ中の要素間の関連性をダイナミックに表現する、細部に入りきらずに問に対して答えを出すなど) 指標・特徴量の設計から始める データ可視化学入門
データ可視化 軸出し 散布図などの軸出しにおいて、目的やデータに応じて縦軸・横軸の候補を適切に洗い出せる 指標・特徴量の設計から始める データ可視化学入門
データ可視化 軸出し 積み上げ縦棒グラフでの属性の選択など、目的やデータに応じて適切な層化(比較軸)の候補を出せる 指標・特徴量の設計から始める データ可視化学入門
データ可視化 軸出し ★★ 抽出したい意味にふさわしい軸・層化の粒度、順番を考慮して軸のきざみや層化方法を選択できる 指標・特徴量の設計から始める データ可視化学入門
データ可視化 軸出し ★★ 膨大な属性を持つテーブルから目的に有用な属性を選択できる 指標・特徴量の設計から始める データ可視化学入門
データ可視化 軸出し ★★★ 非構造化データから分析の軸になりうる候補を抽出し、付加すべき属性候補を適切に出せる
データ可視化 データ加工 サンプリングやアンサンブル平均によって適量にデータ量を減らすことができる 改訂新版 前処理大全〜SQL/pandas/Polars実践テクニック
データ可視化 データ加工 読み取りたい特徴を効果的に可視化するために、統計量を使ってデータを加工できる
データ可視化 データ加工 ★★ データの持つ分散量の観点で、高次元のデータを主成分分析(PCA)などにより1~3次元のデータに変換できる Python機械学習プログラミング PyTorch&scikit-learn編
データ可視化 データ加工 ★★★ 高次元の非線形な(高次の曲線、渦状の分布などの)データであっても、適切に1~3次元のデータに圧縮して、特徴(データの総分散量および各データの位置関係)を損なわずに可視化できる
データ可視化 データ加工 ★★★ ネットワーク構造、グラフ構造などの表現において、ノードとエッジが増えすぎて特徴抽出が困難であっても、データの絞り込みや抽象度を上げることで適切に可視化できる
データ可視化 データ加工 ★★★ データ量が膨大(ペタバイト以上)なために、処理しきれず描画できない規模のデータに対しても、適度なデータや情報の抽出(間引き)、クラスター分析などにより可視化しうる状態にデータを加工できる Apache Spark徹底入門
データ可視化 データ加工 ★★★ 大規模なデータへのリアルタイムな可視化が求められる場合であっても、特異点の抽出や次元圧縮を通じてデータを圧縮し、リアルタイム表示できる
データ可視化 データ加工 ★★★ 大規模なデータへのリアルタイムな可視化が求められる場合であっても、データの分割転送、復元を通じて可視化できる
データ可視化 表現・実装技法 データ解析部門以外の方に、データの意味を可視化して伝える重要性を理解している 指標・特徴量の設計から始める データ可視化学入門
データ可視化 表現・実装技法 情報提示の相手や場に応じて適切な情報濃度を判断できる(データインク比の考え方など) 指標・特徴量の設計から始める データ可視化学入門
データ可視化 表現・実装技法 不必要な誇張をしないための軸表現の基礎を理解できている(コラムチャートのY軸の基準点は「0」からを原則とし軸を切らないなど) 指標・特徴量の設計から始める データ可視化学入門
データ可視化 表現・実装技法 強調表現がもたらす効果と、明らかに不適切な強調表現を理解している(計量データに対しては位置やサイズ表現が色表現よりも効果的など) 指標・特徴量の設計から始める データ可視化学入門
データ可視化 表現・実装技法 1~3次元の比較において目的(比較、構成、分布、変化など)に応じ、BIツール、スプレッドシートなどを用いて図表化できる
データ可視化 表現・実装技法 端的に図表の変化をアニメーションで可視化できる(人口動態のヒストグラムが経年変化する様子を表現するなど) Python インタラクティブ・データビジュアライゼーション入門
データ可視化 表現・実装技法 1~3次元の図表を拡張した多変量の比較を適切に可視化できる(平行座標、散布図行列、テーブルレンズ、ヒートマップなど)
データ可視化 表現・実装技法 ★★ ネットワーク構造、グラフ構造、階層構造などの統計的な関係性の可視化ができる
データ可視化 表現・実装技法 ★★ 地理空間情報などを地図に重ね合わせた可視化ができる(コロプレスマップ、ボロノイ図など)
データ可視化 表現・実装技法 ★★ 挙動・軌跡の可視化ができる(店舗内でのユーザの回遊やEye tracking、ウェアラブル端末の3軸ジャイロセンサーや心拍数など) Python インタラクティブ・データビジュアライゼーション入門が比較的近いと思われる
データ可視化 表現・実装技法 ★★ 適切な情報(意味)を押さえた上で、デザイン性を高めるための要件提示ができる 指標・特徴量の設計から始める データ可視化学入門
データ可視化 表現・実装技法 ★★ ドメイン知識とビジネス背景をふまえ、適切な情報項目を参照し、利用者の使い勝手を考慮した可視化したダッシュボードあるいは可視化ツールを設計できる
データ可視化 表現・実装技法 ★★★ 人体、標高を持つ地図、球面など3次元空間上にデータを重ね合わせた可視化ができる Python インタラクティブ・データビジュアライゼーション入門
データ可視化 表現・実装技法 ★★★ 地図上で同時に動く数百以上のポイントにおける時間変化を動的に表現できる(多地点での風の動き、飛行物の軌跡など) Python インタラクティブ・データビジュアライゼーション入門が比較的近いと思われる
データ可視化 表現・実装技法 ★★★ 複雑で総合的な表現が求められる場合に、ユーザインターフェースの設計に加え、内部のアルゴリズム設計やシステム環境への負荷調整なども踏まえた可視化ができる Python インタラクティブ・データビジュアライゼーション入門が比較的近いと思われる
データ可視化 意味抽出 外れ値を見出すための適切な表現手法を選択できる
データ可視化 意味抽出 データの可視化における基本的な視点を挙げることができる(特異点、相違性、傾向性、関連性を見出すなど) 指標・特徴量の設計から始める データ可視化学入門
データ可視化 意味抽出 ★★ 統計値(代表値の指標、バラツキの指標、有意性の指標、関係式)を正しく読み、回帰式や移動平均線に意味付けできる
データ可視化 意味抽出 ★★★ 分類・グルーピングの分析において、分布傾向から原因を追究し、活用方針を計画・主導できる(分類に応じたDM発送による反応率の向上など)
データ可視化 意味抽出 ★★★ 予測の分析において、関連性、特異点、変曲点から原因を追究し、活用方針を計画・主導できる(予測結果に基づく発注管理など) 需要予測の戦略的活用
データ可視化 意味抽出 ★★★ 関係性の分析において関連が高い/低い原因を追究し、活用方針を計画・主導できる(レコメンドなど)
モデル化 回帰・分類 単回帰分析において最小二乗法、回帰係数、標準誤差、決定係数を理解し、モデルを構築できる
モデル化 回帰・分類 重回帰分析において偏回帰係数と標準偏回帰係数、重相関係数、自由度調整済み決定係数について説明できる
モデル化 回帰・分類 線形回帰分析とロジスティック回帰分析のそれぞれが予測する対象の違いを理解し、適切に使い分けられる
モデル化 回帰・分類 ★★ 重回帰分析や判別分析を実行する際に変数選択手法の特徴を理解し、適用できる
モデル化 回帰・分類 ★★ 重回帰分析において多重共線性の評価ができ、適切に変数を統合・加工・削除して予測モデルが構築できる
モデル化 回帰・分類 ★★ 過学習を防止するためにL1正則化(Lasso)、L2正則化(Ridge回帰)、それらを組み合わせたElastic netを適用できる
モデル化 回帰・分類 ★★ 一般化線形モデル (GLM) および一般化線形混合モデル(GLMM)を用いて分布形状に応じたモデルを構築できる
モデル化 回帰・分類 ★★ ロジスティック回帰分析において回帰係数とオッズ比の関係について説明できる
モデル化 回帰・分類 ★★ ロジスティック回帰分析を行う際に、最小二乗法ではなく最尤法を使う際の利点(回帰誤差が近似的に正規分布しなくても適用できるなど)を説明し、適用できる
モデル化 回帰・分類 ★★ Cox回帰(比例ハザードモデル)を用いて対象イベントの発生確率を予測する生存分析モデルを構築できる 統計検定準1級対応 統計学実践ワークブック
モデル化 回帰・分類 ★★ 対象の個体差やグループ毎の差が認められるデータに対し、階層ベイズモデルの構築ができる
モデル化 回帰・分類 ★★ 予測アルゴリズムに応じ、必要な変数加工処理を設計し、実施できる(標準化やダミー変数化など、採用したアルゴリズムに適した変数加工)
モデル化 回帰・分類 ★★★ 対象データの分布を確認し、分布形状に適合した計算式の非線形回帰モデルを構築できる 事例で学ぶ特徴量エンジニアリング
モデル化 回帰・分類 ★★★ 予測モデル構築において頑健性(Robustness)を維持するための具体的な方法を設計、実施できる Kaggleで勝つデータ分析の技術
モデル化 統計的評価 ROC曲線、AUC(Area under the curve)を用いてモデルの精度を評価できる
モデル化 統計的評価 混同行列(正誤分布のクロス表)、Accuracy、Precision、Recall、F値、特異度を理解し、精度を評価できる
モデル化 統計的評価 RMSE(Root Mean Square Error)、MAE(Mean Absolute Error)、MAPE(Mean Absolute Percentage Error)、決定係数といった評価尺度を理解し、精度を評価できる
モデル化 統計的評価 ★★ 多値分類において、混同行列(正誤分布のクロス表)のAccuracy、Precision、Recall、F値に関するmacro平均、micro平均、重み付き平均を計算し評価できる
モデル化 統計的評価 ★★ 不均衡データ(Imbalanced data)に対する分類モデルの評価尺度を、Precision、Recall、F値、PR(Presicion Recall)曲線、マシューズ相関係数などを用いてビジネス課題に合わせて適切に設定できる Kaggleで勝つデータ分析の技術
モデル化 統計的評価 ★★ MSE、AUC、F値などは評価データ全体に対する平均的評価であることを理解し、必要に応じて予測値・誤差の可視化、データの部分集合に対する評価などを実施できる
モデル化 統計的評価 ★★ 予測モデルの出力結果における誤差の分布を理解し、逸脱したデータ点において起きている事象を推察できる
モデル化 統計的評価 ★★★ 目的(予測・真のモデル推定など)に応じて、適切な損失関数とモデル選択基準(AIC:赤池情報量規準、BIC:ベイズ情報量規準、MDL:最小記述長など)を選択し、モデル評価ができる
モデル化 機械学習 機械学習の手法を3つ以上知っており、概要を説明できる
モデル化 機械学習 機械学習のモデルを使用したことがあり、どのような問題を解決できるか理解している(回帰・分類、クラスター分析の用途など)
モデル化 機械学習 「教師あり学習」「教師なし学習」の違いを理解している
モデル化 機械学習 過学習とは何か、それがもたらす問題について説明できる
モデル化 機械学習 次元の呪いとは何か、その問題について説明できる
モデル化 機械学習 教師あり学習におけるアノテーションの必要性を説明できる
モデル化 機械学習 観測されたデータにバイアスが含まれる場合や、学習した予測モデルが少数派のデータをノイズと認識してしまった場合などに、モデルの出力が差別的な振る舞いをしてしまうリスクを理解している
モデル化 機械学習 機械学習における大域的(global)な説明(モデル単位の各変数の寄与度など)と局所的(local)な説明(予測するレコード単位の各変数の寄与度など)の違いを理解している XAI(説明可能なAI)
モデル化 機械学習 ホールドアウト法、交差検証(クロスバリデーション)法の仕組みを理解し、訓練データ、パラメータチューニング用の検証データ、テストデータを作成できる
モデル化 機械学習 時系列データの場合は、時間軸で訓練データとテストデータに分割する理由を理解している Pythonによる時系列分析
モデル化 機械学習 機械学習モデルは、データ構成の変化(データドリフト)により学習完了後から精度が劣化していくため、運用時は精度をモニタリングする必要があることを理解している 仕事ではじめる機械学習 第2版
モデル化 機械学習 ニューラルネットワークの基本的な考え方を理解し、入力層、隠れ層、出力層の概要と、活性化関数の重要性を理解している
モデル化 機械学習 決定木をベースとしたアンサンブル学習(Random Forest、勾配ブースティング[Gradient Boosting Decision Tree:GBDT]、 その派生形であるXGBoost、LightGBMなど)による分析を、ライブラリを使って実行でき、変数の寄与度を正しく解釈できる
モデル化 機械学習 連合学習では、データは共有せず、モデルのパラメータを共有して複数のモデルを統合していることを理解している Federated Learning: プライバシー保護下における機械学習
モデル化 機械学習 モデルの性能を改善するためには、モデルの改善よりもデータの質と量を向上させる方が効果的な場合があることを理解している Kaggleで勝つデータ分析の技術
モデル化 機械学習 ★★ 訓練データ、検証データ、テストデータの分割時にデータの性質や目的に応じて、地理空間情報や様々な属性を考慮すべきか判断できる 本質を捉えたデータ分析のための分析モデル入門
モデル化 機械学習 ★★ 予測モデルにおけるリークとは何か、それがもたらす問題について説明できる Kaggleで勝つデータ分析の技術
モデル化 機械学習 ★★ 次元の呪いの影響を受けやすいアルゴリズムを識別し対処するアプローチを知っている(特徴量選択、次元圧縮、L1/L2正則化など)
モデル化 機械学習 ★★ アノテーションにおいて、判断基準の明確化やアノテーターの精度管理を適切に実施することにより、高品質な教師付きデータを効率的に作成できる Human-in-the-Loop機械学習
モデル化 機械学習 ★★ 教師あり学習と強化学習の違いを、前提、定義、応用先といった観点で説明できる 本質を捉えたデータ分析のための分析モデル入門
モデル化 機械学習 ★★ 決定木分析においてCHAID、C5.0、CARTなどのデータ分割のアルゴリズムの特徴を理解し、適切な方式を選定できる はじめてのパターン認識
モデル化 機械学習 ★★ データに変更を加え予測モデルを故意に誤らせる敵対的サンプル(Adversarial examples)について、代表的な攻撃方法を理解している 申し訳ないですが知見なし
モデル化 機械学習 ★★ 生成モデルと識別モデルの違いやそれぞれのメリットと課題を理解しており、目的に応じて適切に使い分けられる 深層学習教科書 ディープラーニング G検定公式テキスト 第3版
モデル化 機械学習 ★★ 不均衡データ(Imbalanced data)がモデルに与える影響を理解し、サンプリングや評価/損失関数のチューニングなどを適切に対処できる Kaggleで勝つデータ分析の技術
モデル化 機械学習 ★★ バイアスとバリアンスの関係について、未学習や過学習の観点から説明できる はじめてのパターン認識
モデル化 機械学習 ★★ 機械学習・AIの公平性の評価指標について説明できる(デモグラフィックパリティ、均等オッズなど) 解釈可能なAI
モデル化 機械学習 ★★ LIME、SHAPなどExplainable AI(XAI)の手法を用いて、ブラックボックス性の高いモデルの局所的な説明(レコード単位の予測根拠の提示)ができる 解釈可能なAIXAI(説明可能なAI)
モデル化 機械学習 ★★ 課題やデータに応じて、汎化性能向上のためのデータ拡張(Data Augmentation)を設計・実装できる(画像データの回転・反転、テキストデータの単語入れ替え・置換・削除など) Human-in-the-Loop機械学習5
モデル化 機械学習 ★★ 連合学習について、水平型と垂直型の違いを理解し、適切に対応方針を決定できる Federated Learning: プライバシー保護下における機械学習
モデル化 機械学習 ★★ 低品質なデータ(バイアスや欠落、計測・登録の誤り、混入など)に対するデータクレンジングには限界があり、取得段階での対策が重要であることを理解している 分析者のためのデータ解釈学入門
モデル化 機械学習 ★★ Webから収集したデータなど、大量だが不要な情報が多く混在するデータに対し、不必要もしくは不適切なデータをできる限り取り除くことで、データの品質を高めることができる 仕事ではじめる機械学習 第2版5
モデル化 機械学習 ★★★ データと分析要件から、データ分布やモデル精度のモニタリング設計・実施と、劣化が見込まれるモデルに対するリモデルの設計ができる 仕事ではじめる機械学習 第2版5
モデル化 機械学習 ★★★ リークの発生の有無を適切に判断し、対応できる(マスタデータが更新されており、本来予測時に使用できない未来の情報を含んでしまうパターン、本来は未知である評価データも含めて標準化するパターンなど) Kaggleで勝つデータ分析の技術
モデル化 機械学習 ★★★ 最新の研究に基づき敵対的サンプル(Adversarial examples)に対する現実的な対策を検討できる 申し訳ないですが知見なし
モデル化 機械学習 ★★★ 分析要件に応じ、モデリング手法(線形モデル、決定木、サポートベクターマシン、ニューラルネットワーク、アンサンブル学習など)の選択とパラメータ設定、結果の評価、チューニングを適切に設計・実施・指示できる
モデル化 機械学習 ★★★ 複数の機械学習モデルを組み合わせるアンサンブル学習において、各モデルの予測スコアを用いた平均(Averaging)、多数決(Voting)、Stackingなどの手法を理解し、目的に応じて設計・実装できる
モデル化 機械学習 ★★★ 半教師あり学習やアクティブラーニングにより効率的なアノテーションができる Human-in-the-Loop機械学習
モデル化 機械学習 ★★★ 機械学習等の最新の論文を理解し、必要とあれば自分で実装し評価できる 9
モデル化 機械学習 ★★★ 事前学習済みのモデルに対し、新たなクラスの分類をより少ないデータで効率的に学習させるための手法について知っている(Model-Agnostic Meta-Learning :MAMLなど)
Data-centric AI入門
モデル化 機械学習 ★★★ 分析目的を達成するためにどの水準でデータ品質を確保する必要があるかを判断し、取得段階における品質対策ガイドラインを設計できる 仕事ではじめる機械学習 第2版5
モデル化 深層学習 深層学習(ディープラーニング)モデルの活用による主なメリットを理解している(特徴量抽出が可能になるなど) 深層学習教科書 ディープラーニング G検定公式テキスト 第3版
モデル化 深層学習 データサイエンスやAIの分野におけるモダリティの意味を説明できる(データがどのような形式や方法で得られるか、など) 深層学習教科書 ディープラーニング G検定公式テキスト 第3版
モデル化 深層学習 ★★ バッチ勾配降下法(バッチ学習)、確率的勾配降下法(オンライン学習)、ミニバッチ勾配降下法(ミニバッチ学習)の違いを説明できる
モデル化 深層学習 ★★ ドロップアウト、L1/L2正則化などによる過学習の抑制や、バッチ正規化による学習の効率化について理解している
モデル化 深層学習 ★★ 文字や単語といった質的(離散的)な特徴量をニューラルネットワークで学習する場合、特徴量の各値にベクトルを対応させるEmbeddingが有効であることを理解している
モデル化 深層学習 ★★ 畳み込みニューラルネットワーク(CNN)、再帰型ニューラルネットワーク(RNN)、長期短期記憶(LSTM)、Transformerなどの深層学習の主要方式の特徴を理解し、目的に応じて適切に選定できる
モデル化 深層学習 ★★ ニューラルネットワークにおいてAttention機構(Self-Attention、Source-Target Attention、Multi-Head Attentionなど)の特徴を理解し、各ベクトルの重みを算出できる ディープラーニングを支える技術ゼロから作るDeep LearningIT Text 自然言語処理の基礎深層学習 改訂第2版
モデル化 深層学習 ★★ 転移学習とファインチューニングの基本的な枠組みを理解し、事前学習済みのニューラルネットワークを用いた効率的な学習方法を設計・実装できる 10
モデル化 深層学習 ★★ 誤差逆伝播法(Backpropagation)における勾配消失、勾配爆発の問題を理解し、適切な活性化関数・重みの初期化方法の選択、Gradient Clippingなどの緩和策を実施できる
モデル化 深層学習 ★★ Residual Connection(Skip Connection)が誤差逆伝播法(Backpropagation)における勾配消失問題の緩和策となっていることを理解している 深層学習 改訂第2版
モデル化 深層学習 ★★ 深層学習における最適化法/Optimizer(SGD、Momentum、RMSProp、Adamなど)や学習率の動的な調整法(Cyclical Learning Rateなど)の重要性について理解している
モデル化 深層学習 ★★ 主要な深層生成モデル(拡散モデル、変分自己符号化器[Variational AutoEncoder: VAE]、敵対的生成ネットワーク[Generative Adversarial Network:GAN])やその派生形を理解し、目的に応じて学習・評価できる
モデル化 深層学習 ★★ 画像とテキストなど異なる性質の非構造化データに対し、既存の手法(BEiT-3やLayoutLMなど)を用いたマルチモーダルなモデルを構築し、異なるモダリティが持つ特性を活かして予測や分類の精度を高めることができる 申し訳ないですが知見なし
モデル化 深層学習 ★★★ 深層学習の実装において、予想精度を向上するため、層の種類(全結合、畳み込み、プール、LSTM、GRU、Attention機構など)、層数、ニューロン数、活性化関数、学習率、学習回数などをチューニングできる
モデル化 深層学習 ★★★ 深層学習モデルの推論時の計算コストを削減する方法(枝刈り、蒸留、量子化など)を設計・実装できる 11
モデル化 深層学習 ★★★ 画像とテキストなど、異なる性質の非構造化データを用いたマルチモーダルなモデルを活用し、言語/画像生成やロボット制御などにおいてモダリティをまたぐことにより生じる諸問題を解決しながら実践できる(異なるモダリティが組み合わさることによる精度改善の困難さなど)
モデル化 強化学習 ★★ 状態と行動、報酬による強化学習の基本概念を理解し、モンテカルロ法やQ学習などを実行できる
モデル化 強化学習 ★★★ 主要な強化学習モデルを理解し、目的に応じて学習・評価できる(Deep Q-network [DQN]、Asynchronous Advantage Actor-Critic[A3C]、Proximal Policy Optimization [PPO]やその派生形など)
モデル化 時系列分析 時系列分析を行う際にもつべき視点を理解している(長期トレンド、季節成分、周期性、ノイズ、定常性など) Pythonによる時系列分析
モデル化 時系列分析 ★★ 時系列データの時点間での関係を、自己相関やコレログラムを利用して評価ができる
モデル化 時系列分析 ★★ 時系列データに対し、ライブラリを使用して、分析結果の比較を行い、適切なモデルを選択できる(自己回帰モデル[AR]、移動平均モデル[MA]、ARIMA、SARIMA、VAR、GARCH、Prophet、指数平滑法など)
モデル化 時系列分析 ★★ グレンジャー因果などの手法を用い、時系列データにおける変数間の因果関係を把握できる
モデル化 時系列分析 ★★ 高速フーリエ変換(Fast Fourier Transform: FFT)などを用いてピリオドグラムの計算量を抑制できる 12
モデル化 時系列分析 ★★ 時系列データにおいて、前埋め/線形補完/移動平均などの手法を用い欠測値の補完を行うことができる
モデル化 時系列分析 ★★ 状態空間モデルにおいて、カルマンフィルタを用いた欠測値の補完や予測モデルの構築ができる
モデル化 時系列分析 ★★★ 非線形・非ガウス型状態空間モデルにおいて、モンテカルロ・フィルタを用いて、複雑な時系列システムの予測モデルを構築できる Rによるベイジアン動的線形モデル13
モデル化 クラスタリング 教師なし学習のグループ化(クラスター分析)と教師あり学習の分類(判別)モデルの違いを説明できる
モデル化 クラスタリング 階層クラスター分析と非階層クラスター分析の違いを説明できる
モデル化 クラスタリング 階層クラスター分析において、デンドログラムの見方を理解し、適切に解釈できる
モデル化 クラスタリング ★★ 非階層クラスター分析において、分析対象となるデータの特性や分析目的に応じ、適切なクラスター数の決定とクラスターの解釈ができる
モデル化 クラスタリング ★★ 階層クラスター分析における代表的なクラスター間距離(Ward法、群平均法、最長一致法など)の概念を理解し、目的に合致した最適な手法で分析できる 本質を捉えたデータ分析のための分析モデル入門Pythonではじめる教師なし学習はじめてのパターン認識
モデル化 クラスタリング ★★ クラスター分析を実行する際、各種距離(ユークリッド距離、マンハッタン距離、マハラノビス距離など)や非類似度(1-cos類似度のような距離の公理を満たさない指標など)を理解し、分析目的に合致した最適な手法で分析できる 本質を捉えたデータ分析のための分析モデル入門Pythonではじめる教師なし学習はじめてのパターン認識
モデル化 クラスタリング ★★ k-means法で得られる分析結果は局所最適解であるため初期値問題があることを理解し、分析目的に応じて適切な初期値を探索できる 本質を捉えたデータ分析のための分析モデル入門Pythonではじめる教師なし学習はじめてのパターン認識
モデル化 クラスタリング ★★ k-meansやその派生方法、カーネルk-means、スペクトラルクラスタリングなどの違いを理解し、試行の中で最適な手法を選択・実行できる
モデル化 クラスタリング ★★★ 自己組織化マップ(SOM)、Affinity Propagation、混合分布モデル、ディリクレ過程混合モデルなどを理解し、試行の中で最適な手法を選択できる 14
モデル化 グラフィカルモデル ★★ グラフィカルモデルを用いて、確率変数間の関係性をグラフ表現できる
モデル化 グラフィカルモデル ★★ 重回帰分析とパス解析の違いを理解し、使い分けることができる
モデル化 グラフィカルモデル ★★ LINGAMやベイジアンネットワークを用いて因果探索ができる
モデル化 グラフィカルモデル ★★ 共分散構造分析(構造方程式モデリング:SEM)を行い、観測変数・潜在変数の因果関係を説明できる 原因をさぐる統計学―共分散構造分析入門
モデル化 ネットワーク分析 ネットワーク分析におけるグラフの基本概念(有向・無向グラフ、エッジ、ノード等)を理解している。 ネットワーク科学入門: Pythonで学ぶデータ分析とモデリング
モデル化 ネットワーク分析 ★★ ネットワーク分析におけるグラフ理論を用いた基本的なアルゴリズム(最短経路問題、ページランク等)を理解し、与えられた問題を解くことができる。 ネットワーク科学入門: Pythonで学ぶデータ分析とモデリング
モデル化 ネットワーク分析 ★★ ナレッジグラフとは何か、そしてどのように情報を表現しているか(主語、述語、目的語とエッジ、ノードの対応関係など)を理解し、その応用について一例を挙げて説明できる(検索エンジン、レコメンドなど) はじめての知識グラフ構築ガイド
モデル化 ネットワーク分析 ★★★ ネットワーク分析が問題の解決に有効な状況を見極め、現実の問題をグラフを用いたデータ分析の問題に落とし込むことができる。 ネットワーク科学入門: Pythonで学ぶデータ分析とモデリング
モデル化 ネットワーク分析 ★★★ ネットワーク分析におけるグラフデータに対する深層学習の代表的手法を行うための入力構造、タスク(出力)について理解している(Graphical Convolution Networks:GCNsなどの手法や、特徴量行列・隣接行列などの入力構造、ノード予測やグラフ予測、リンク予測などのタスク) グラフニューラルネットワーク
モデル利活用 異常検知 ★★ 手元のデータの多寡やデータの再現性をふまえ、教師あり異常検知と教師なし異常検知の違いを適切に使い分けることができる Pythonではじめる異常検知入門
モデル利活用 異常検知 ★★ Local Outlier Factor(LOF)、オートエンコーダ、One-class SVM(Support Vector Machine)、マハラノビス距離などを用いた異常検知の手法を理解し、試行の中で最適な手法を選択・実行できる Pythonではじめる異常検知入門
モデル利活用 レコメンド レコメンドアルゴリズムにおけるコンテンツベースフィルタリングと協調フィルタリングの違いを説明できる 推薦システム実践入門
モデル利活用 レコメンド ★★ 分析要件から適切なレコメンドアルゴリズム(ItemKNN、BRP、item2vec、LightGCN、RecVAEなど)を選定し実装できる (一部のアルゴリズムのみ)推薦システム実践入門
モデル利活用 レコメンド ★★★ 行動履歴に加え、アイテム属性、ユーザ属性、時間変化などの情報を用いて、目的に応じた推薦アルゴリズムを実装・評価できる 推薦システム実践入門
非構造化データ処理 自然言語処理 テキストデータに対する代表的なクリーニング処理(小文字化、数値置換、半角変換、記号除去、ステミングなど)を目的に応じて適切に実施できる
非構造化データ処理 自然言語処理 形態素解析や係り受け解析のライブラリを適切に使い、基本的な文書構造解析を行うことができる
非構造化データ処理 自然言語処理 自然言語処理を用いて解けるタスクを理解し、各タスクの入出力を説明できる(GLUEタスクや固有表現抽出、機械翻訳など) 自然言語処理の教科書
非構造化データ処理 自然言語処理 ★★ Unigram language modelやBPE(Byte Pair Encoding)によるサブワード分割手法を理解しており、必要に応じて適切に実施できる
非構造化データ処理 自然言語処理 ★★ 使用メモリの削減やモデルの精度向上のため、名寄せやユーザ定義辞書の作成、ストップワードの除去・置換を実施できる 実践 自然言語処理
非構造化データ処理 自然言語処理 ★★ Word2Vec(Skip-gram、CBoW)やTransformerを用いて、単語・文章を類似度計算が可能なベクトルに変換できる
非構造化データ処理 自然言語処理 ★★ TF-IDFやcos類似度などの基本的なアルゴリズムを使い、文書ベクトルの作成や文書間の類似度を計算できる
非構造化データ処理 自然言語処理 ★★★ 形態素解析・構文解析・固有表現抽出のアルゴリズムを理解し、使いこなせる
非構造化データ処理 自然言語処理 ★★★ N-gram言語モデルの構築方法と代表的なスムージングアルゴリズムを理解し、使いこなせる
非構造化データ処理 自然言語処理 ★★★ 索引型の全文検索の仕組み(転置インデックス、スコアリング、関連性フィードバック、Embedding Index)を理解し、適切に使いこなせる 機械学習による検索ランキング改善ガイド15
非構造化データ処理 自然言語処理 ★★★ 主要なトピックモデル(確率的潜在意味解析[pLSA]、潜在的ディリクレ配分法[LDA])の仕組みを理解し、使いこなせる
非構造化データ処理 自然言語処理 ★★★ データの特性に合わせ、適切な言語処理アルゴリズムを選択し、誤り分析、辞書作成などを行い、成果を最大化できる
非構造化データ処理 自然言語処理 ★★★ 再帰型ニューラルネットワーク(RNN)、長期短期記憶(LSTM)、Transformerなどを用いたニューラル言語モデルを理解し、使いこなせる
非構造化データ処理 自然言語処理 ★★★ Transformerや隠れマルコフモデル(Hidden Markov Model:HMM)、Conditional Random Fields:CRF)などを用いた系列ラベリング手法を理解し、使いこなせる
非構造化データ処理 自然言語処理 ★★★ GPT(Generative Pre-Trained transformer)、BERT(Bidirectional Encoder Representations from Transformer)などのAttentionベースのニューラル言語モデルを理解し、使いこなせる
非構造化データ処理 画像認識 画像のデジタル表現の仕組みと代表的な画像フォーマットを知っている ディジタル画像処理[改訂第二版]
非構造化データ処理 画像認識 画像に対して、目的に応じた適切な色変換や簡単なフィルタ処理などを行うことができる 申し訳ないですが知見なし
非構造化データ処理 画像認識 画像データに対する代表的なクリーニング処理(リサイズ、パディング、正規化など)を目的に応じて適切に実施できる 申し訳ないですが知見なし
非構造化データ処理 画像認識 画像認識を用いて解けるタスクを理解し、入出力とともに説明できる(識別、物体検出、セグメンテーションなどの基本的タスクや、姿勢推定、自動運転などの応用的タスク) 申し訳ないですが知見なし
非構造化データ処理 画像認識 ★★ 画像の処理や解析において、効果的なパターン検出や画像特徴抽出などを既存手法から選ぶことができる 申し訳ないですが知見なし
非構造化データ処理 画像認識 ★★ ResNet、EfficientNet、MobileNet、Vision Transformer (ViT)などの代表的な画像認識モデルを理解し使いこなせる 申し訳ないですが知見なし
非構造化データ処理 画像認識 ★★ ライブラリ、学習済みモデルなどを用いて識別・物体検出・セマンティックセグメンテーションなどの画像処理を実装・評価できる 申し訳ないですが知見なし
非構造化データ処理 画像認識 ★★★ 画像・動画処理を行う環境(モバイル上での処理など実行に制約を伴う環境)と処理パフォーマンスを考慮し、適切な手法の選択とモデルの構築ができる 申し訳ないですが知見なし
非構造化データ処理 画像認識 ★★★ 画像を元にした被写体の3次元構造の推定や新視点画像生成など、画像で表現された3次元の物体のデータを扱うことができる。(NeRFなど) 申し訳ないですが知見なし
非構造化データ処理 映像認識 動画のデジタル表現の仕組みと代表的な動画フォーマットを理解しており、動画から画像を抽出する既存方法を使うことができる 申し訳ないですが知見なし
非構造化データ処理 映像認識 ★★ 物体が動いている方向・速度(オプティカルフロー)を動画から推定し、トラッキングできる 申し訳ないですが知見なし
非構造化データ処理 映像認識 ★★★ 動画の解析手法の現況について理解し、専門家とともに実装を検討できる(Kernel Temporal Segmentation[KTS]による動画の映像区間切り分け、動画内の重要度推定によるハイライト作成など) 申し訳ないですが知見なし
非構造化データ処理 音声認識 wavやmp3などの代表的な音声フォーマットの特徴や用途、基本的な変換処理について説明できる(サンプリングレート、符号化、量子化など) Pythonで学ぶ音声認識
非構造化データ処理 音声認識 ★★ 音声データから、分析目的にあった波形データの抽出やノイズの除去ができる Pythonで学ぶ音声認識
非構造化データ処理 音声認識 ★★ 音声認識や本人認証、感情分析などの代表的な音声処理分野について理解し、用いられる分析手法を説明できる Pythonで学ぶ音声認識16
非構造化データ処理 音声認識 ★★★ 短時間フーリエ分析、メルフィルタバンク処理、ケプストラム分析、LPC(線形予測分析)などの代表的な音声信号分析手法を理解し、使いこなすことができる Pythonで学ぶ音声認識
非構造化データ処理 音声認識 ★★★ 音声認識、音声合成、認証・感情分析などの目的に合わせて、パラメータ調整や手法変更、言語モデル・音響モデルなどを差し替え、モデル構築・精度評価ができる
生成 大規模言語モデル 大規模言語モデル(LLM)でHallucinationが起こる理由を学習に使われているデータの観点から説明できる(学習用データが誤りや歪みを含んでいる場合や、入力された問いに対応する学習用データが存在しない場合など) IT Text 自然言語処理の基礎
生成 大規模言語モデル ★★ 大規模言語モデル(LLM)を活用することが、独自に言語処理を開発することに対してメリットがある状況を、訓練データの収集コストや目的の汎用性、訓練に必要なコンピューターリソース(GPUやTPU)などの観点から説明できる 自然言語処理の教科書
生成 大規模言語モデル ★★ 目的特化型のモデルと基盤モデルの違いについて汎用性や学習方法(データ量や教師データの有無など)の観点から理解し、目的に合わせて使い分けの判断ができる
生成 大規模言語モデル ★★ 大規模言語モデル(LLM)でHallucinationが起こる理由を言語モデルとしての特性(尤度にもとづくワード生成)や学習手法(自己教師あり学習やRLHF等)、汎化(外挿に対する真実味)の観点などから説明できる
生成 大規模言語モデル ★★ 基準となる指標や評価のためのデータセットなどの性能評価方針に従い、大規模言語モデル(LLM)の性能を評価できる
生成 大規模言語モデル ★★★ Hallucinationの発生の抑制可否に対する現状と、抑制に向けた研究動向について理解している(Alignmentの問題とHallucinationの問題が表裏一体であることに対する理解など) WIIP論文しかないか
生成 大規模言語モデル ★★★ 大規模言語モデル(LLM)とそれ以前の自然言語処理技術について、それぞれが得意とするタスクや処理性能、ドメインユースへのカスタマイズ可否などの観点から違いを理解し、自社組織の課題に対して適切な手法の導入を推進できる
生成 大規模言語モデル ★★★ オープンソースの大規模言語モデル(LLM)を活用する上での留意点(入出力データの管理方法や性能面での限界など)と使い方(パラメータ更新可否や代表的なファインチューニング方法など)を理解し導入できる
生成 大規模言語モデル ★★★ 大規模言語モデル(LLM)において、利用者にとって好ましいと考えられる出力や安全性が確保された出力を生成できるようにするための学習手法を知っている(Reinfocement Learning from Human Feedback:RLHFやLIMAなど)
生成 大規模言語モデル ★★★ 大規模言語モデル(LLM)に対し、効率的なFine Tuning(Parameter-Efficient Fine-Tuning:PEFT)を行うための手法を知っている(Prefix Tuning、Adapter、LoRAなど)
生成 大規模言語モデル ★★★ 大規模言語モデル(LLM)の評価について検討すべき事項を理解し、指標や評価のためのデータセットを選定できる
  • 自然言語処理タスクとしての性能(GLUEやJGLUEなど)
  • 目的・専門領域での性能(司法や医療分野などの模擬試験)
  • 敵対的なプロンプトへの対応、レスポンス改善やファインチューニングを含めた開発・運用コストなど
生成 画像生成モデル ★★★ 拡散モデルとそれ以前の画像認識・生成モデルについて、それぞれが得意とするタスクや処理性能、ドメインユースへのカスタマイズ可否などの観点から特徴を理解し、自社組織の課題に対して適切な手法の導入を推進できる 申し訳ないですが知見なし
生成 画像生成モデル ★★★ 生成モデルにより出力された画像に対して、品質指標(FID、CLIP Score、Inception Scoreなど)とビジネス観点における合理性(設計図の生成に関する構造的妥当性や生成シーンにおける尤もらしさなど)の双方から評価を行うことができる 申し訳ないですが知見なし
生成 オーディオ生成モデル ★★★ オーディオ生成モデルが大規模言語モデル(LLM)を利用する場合において、オーディオデータの系列長圧縮や離散化などのエンコーディング技術がどのような役割を果たすか説明できる(Neural Audio Codecによるオーディオデータのエンコーディングがトークナイズの役割を果たすなど) 申し訳ないですが知見なし
オペレーションズリサーチ シミュレーション・データ同化 ★★ 離散型・連続型シミュレーションについて、説明できる(モンテカルロ、ヒストリカル、Agentベースなど) Pythonコンピュータシミュレーション入門 人文・自然・社会科学の数理モデル
オペレーションズリサーチ シミュレーション・データ同化 ★★ マルコフ連鎖の特徴を理解し、MCMC(マルコフ連鎖モンテカルロ法)シミュレーションをライブラリを用いて実装できる
オペレーションズリサーチ シミュレーション・データ同化 ★★★ データ同化の概念を理解し、実行できる(データを用いてシミュレーション内の不確実性を減少させる計算技法など) 統計学OnePoint26 データ同化
オペレーションズリサーチ シミュレーション・データ同化 ★★★ シミュレーションにおける問題を理解し、対処を考えることができる(初期条件・境界条件・パラメータの不確実性、データ分布の不均一性、実験計画の最適性など) Pythonコンピュータシミュレーション入門 人文・自然・社会科学の数理モデル
オペレーションズリサーチ シミュレーション・データ同化 ★★★ MCMC(マルコフ連鎖モンテカルロ法)における各種アルゴリズム(メトロポリス-ヘイスティングス法、ギブスサンプラー、ハミルトニアン・モンテカルロ法など)について理解し、活用できる
オペレーションズリサーチ 最適化 ★★ 複数のA/Bテスト、スプリットテストの統計的結果を踏まえ、デザイン等の最適化を実施できる
オペレーションズリサーチ 最適化 ★★ 一定の制約下で最適解の識別と報酬の最大化がともに求められ、かつ報酬分布が時間経過で変化するような問題に対して、多腕バンディットアルゴリズムを適用・実装できる
オペレーションズリサーチ 最適化 ★★ 線形計画法について説明できる 最適化手法入門
オペレーションズリサーチ 最適化 ★★ 凸関数および、凸計画問題の条件や特徴を説明できる 最適化手法入門
オペレーションズリサーチ 最適化 ★★ 連続最適化問題(制約なし)において、使用可能なアルゴリズムを説明できる(ニュートン法、最急降下法など) 最適化手法入門
オペレーションズリサーチ 最適化 ★★ 連続最適化問題(制約あり)において、使用可能なアルゴリズムを説明できる(ラグランジュ未定乗数法、内点法、逐次2次計画法など) 最適化手法入門
オペレーションズリサーチ 最適化 ★★ 組み合わせ最適化問題において、代表的な解法の概念を説明できる(厳密解法(分枝限定法、動的計画法、切除平面法)、近似解法(局所探索、貪欲法など)、メタヒューリスティック解法(遺伝的アルゴリズム、タブーサーチなど)) 最適化手法入門
オペレーションズリサーチ 最適化 ★★★ ビジネス課題にあわせて、変数、目的関数、制約を定式化し、線形・非線形を問わず、最適化モデリングができる 最適化手法入門
オペレーションズリサーチ 最適化 ★★★ 代表的な最適化問題に関して、モデリングを行い、ソルバーを使い、最適化できる(ナップザック問題、ネットワークフロー問題、巡回路問題など) 最適化手法入門
  1. 直接の説明は本書にはない。高校数学IAないし大学の集合論の初歩など。よろしければ関連記事書きました。データサイエンティストスキルチェックリスト「データサイエンス」必須項目の解説-1(数学的理解から科学的解析の基礎・統計数理基礎まで)#集合論基礎 2

  2. この項目だけにあえて書籍を挙げるほどもないので。高校数学IIの範囲。よろしければ関連記事データサイエンティストスキルチェックリスト「データサイエンス」必須項目の解説-1(数学的理解から科学的解析の基礎・統計数理基礎まで)#指数関数・対数関数

  3. コンジョイント分析まで行くとマーケターの仕事でありデータサイエンティストスキルチェックの範疇外なのではと思う。これを含めるならもっと入れるべきものは増えるし。Python本では知らないので本書はR利用ですが記載。

  4. 特異値分解や行列分解などは疎な行列を扱うことの多い、自然言語処理や推薦システムなどで用いられることが多い。ここでは推薦システムとして例示したがトピックモデルなどでもよく用いられる。 2

  5. 本書などをベースにして実務経験が必要と思われます。 2 3 4 5 6 7 8 9 10 11 12

  6. 社会調査などの新しい本で良いと思いますが、私が読んだ本だとこの本しかなく、「チャーノフの顔」とか味わい深いのですがGDPじゃなくGNPだし、それぞれ選んでね。

  7. 状態空間モデルにて三角関数適用の例があったと思いますが書籍見つからず。でもこの項目細かすぎないですか?ベイジアンネットワークも1項目なのに、、、

  8. 本書にはいくつか事例が挙がっていますが、それ以外については実務経験にもより、書籍対象外か。あえてだとドメインごとの専門書リストを作っているのでよろしければご参照を。業界ごとのAI・データ分析参考書籍 2

  9. これは書籍対象外。

  10. 実装については自然言語処理以外よく知らずLLMの書籍のみ。

  11. 枝刈りと蒸留の実装例の書籍は分からず。量子化はLLMのみとして記載。

  12. Rだと時系列本が豊富なので色々あるが私が読んだ記憶なく。PythonだとPythonによる気象・気候データ解析II: スペクトル解析・EOFとSVD・統計検定と推定に詳細にありますが、深い分野すぎますよね、、、

  13. Pythonでの高度な状態空間モデルの本を知らず(和書では多分ない)、本書はRですが候補として。

  14. 適切な本を知らず。そして自己組織化マップはクラスタリングではなく次元削減手法のはずです。

  15. 私の知っている範囲だと本書ですが、別途検索の良書があります(読んでないです)。

  16. 本人認証や感情分析については本書では明示なし。

2
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?