試験概要/出題範囲
以下参照
出題範囲(主教材)は「Pythonによるあたらしいデータ分析の教科書」
1章 データ分析エンジニアの役割
データ分析
用語 | 説明 |
---|---|
データ分析 | データをもとに事象の予測や分類を行う技術 |
データ分析に利用される言語 | Python、R、Julia、Excel VBAなど |
Pythonの特徴 | 言語としての仕様がわかりやすい、コンパイル不要な動的スクリプト言語、豊富な標準ライブラリと外部のパッケージ、データ分析以外にも応用範囲が広い、オープンソース |
Pythonが得意とする分野 | データ分析、サーバ系ツール、Webシステム構築、IoTデバイス操作、3Dグラフィックス |
Pythonが苦手とする分野 | Webアプリなどのフロントエンド、デスクトップGUI、低レイヤー処理、大規模かつミッションクリティカルな処理 |
データ分析で使用されるツール | JupyterLab、NumPy、pandas、Matplotlib、SciPy、scilit-learn |
データサイエンティスト | 数学、情報工学、対象分野の専門知識(ドメイン知識)の3つの分野の知識を総合的に持ち、データ分析またはデータ解析の一連の処理および理解・評価を行える立場の職種。 |
データサイエンティストの役割 | モデルやアルゴリズム構築、新たな開放や新技術への取り組み、解決したい課題に向き合う実務、データとの向き合い方の提示、分析結果の評価 |
データ分析エンジニア | データ工学(情報工学を基盤にデータと向き合う分野)を実践する1つの職種 |
データ分析エンジニアが持つべき技術 | データの入手や加工などのハンドリング、データの可視化、プログラミング、インフラレイヤー |
データ分析エンジニアが付加的に持つべき技術 | 機械学習、数学、対象分野の専門知識(ドメイン知識) |
データハンドリング(前処理) | データ処理におけるデータ収集から集計・分析・可視化・マスター化など、データの価値を高める技術やスキル、ノウハウ |
機械学習
用語 | 説明 |
---|---|
機械学習 | 経験からの学習により自動で改善するコンピューターアルゴリズムもしくはその研究領域 |
モデル | 機械学習アルゴリズムによってデータの特性を見つけて、予測などを行う計算式の塊 |
ルールベース | 設定したルールに基づいて計算を行う |
統計的な手法 | データから統計的な数値を求め、それに基づいて計算を行う |
教師あり学習 | 正解となるラベルデータが存在する場合に用いられる方式 |
正解ラベル | タスクとなる課題に対して目的となる値 |
目的変数 | 正解ラベルである目的データ |
説明変数 | 目的変数以外のデータ、目的変数を説明するためのデータ |
回帰 | 目的変数すなわち正解ラベルが連続値となる学習、教師あり回帰 |
分類 | 目的変数がカテゴライズされている学習、教師あり分類 |
教師なし学習 | 正解となるラベルデータが存在しない場合に用いられる方式 |
クラスタリング | データの中からグルーピングを行うこと |
次元削減 | 大量なデータの説明(説明変数の次元数)をより少ないデータの種類(次元数)で言い表す手法 |
強化学習 | ブラックボックス的な環境の中で行動するエージェントが、得られる報酬を最大化するような状態に応じた行動を学習していく手法 |
機械学習の処理手順 | 手順:セットで覚える用語 ----------- データ入手:NumPy、pandas データ加工:NumPy、pandas データ可視化:Matplotlib アルゴリズム選択:scikit-learn 学習プロセス:ハイパーパラメータ 精度評価:scikit-learn 試験運用:- 結果利用:- |
データ分析に使う主なパッケージ
用語 | 説明 |
---|---|
パッケージ | 機能追加したり支援したりするためのもの |
サードパーティ製パッケージ | インターネット上で個人や企業が公開しているパッケージ、データ分析で主に使用されるパッケージは以下の通り |
JupyterLab | Webブラウザ上でPythonなどのコードを実行できるパッケージを用いた環境 |
NumPy | 数値計算を扱うパッケージ、配列や行列を効率よく行える |
pandas | NumPyを基盤とした、DataFrame構造を提供するパッケージ、表形式の2次元データを柔軟に取り扱える |
Matplotlib | データの可視化を行うためのパッケージ、折れ線グラフやヒストグラムなどのグラフが描画できる |
scikit-learn | 機械学習のアルゴリズムや評価用のツールが集まったパッケージ、ツールキットとしてデファクトスタンダード |
SciPy | 科学技術計算をサポートするパッケージ、高度な計算処理に多用されている |
2章 Pythonと環境
実行環境構築
基本構文
標準ライブラリ
モジュール名 | 説明 |
---|---|
re | 正規表現を扱える |
logging | 任意のファイルを指定して任意のファイルにフォーマットを指定してログを出力できる |
datetime | 日付などの処理 |
pickle | Pythonのオブジェクトを直列化(serialization)してファイルなので読み書きできるようになる |
pathlib | Pythonでファイルのパスを扱える |
3章 数学の基礎
用語 | 説明 |
---|---|
集合 | a∈A、いくつかの「もの」からなる「集まり」 |
積集合 | A∩B、集合の共通部分 |
和集合 | A∪B、集合を全部集めたもの |
シグマ | Σ、足し算の繰り返し |
パイ | Π、掛け算の繰り返し |
ネイピア数 | e、定数、自然対数の底 |
階乗 | n!:1からnまでの整数全てを掛け合わせた数 |
指数関数 | f(x) = ax(xは指数)、wikipedia |
シグモイド関数 | 指数関数を応用した関数。深層学習の基本的技術であるニューラルネットワークでよく使われる。 |
対数関数 | f(x) = lognx(nは底)、wikipedia |
自然対数 | f(x) = logex(eの底はネイピア数)、底がネイピア数の対数関数を自然対数と呼ぶ |
常用対数 | f(x) = log10x(10は底)、底が10の場合は常用対数と呼ぶ |
三角関数 | 平面三角法における、角度の大きさと線分の長さの関係を記述する関数の族、およびそれらを拡張して得られる関数の総称 |
sin | サイン、正弦 |
cos | コサイン、余弦 |
tan | タンジェント、正接 |
θ | シータ |
弧度法 | 平面角の大きさをラジアンで測ること |
ラジアン | rad、角度の単位円周上でその円の半径と同じ長さの弧を切り取る2本の半径が成す角の値 |
双曲線関数 | sinhx=..., coshx=…、指数関数exを用いて定義する関数 |
ベクトル | 向きや大きさなどの平面上や空間上の情報を扱った分野 |
スカラー | ベクトルとの対比、大きさのみを持つ量 |
ユークリッド距離 | 原点からベクトルの終点までの直線距離 |
マンハッタン距離 | 各座標の差(の絶対値)の総和を2点間の距離 |
内積 | 二つのベクトルの単位座標ベクトルに関する成分どうしの積の和 |
外積 | 2本のベクトルが作る平行四辺形に対して、垂直な方向に働く新しいベクトル |
行列 | ベクトルは数が1つの方向に並んでいることに対して、行方向と列方向の2方向に広がりを持って並べたもののこと |
正方行列 | 行と列が同じサイズ |
単位行列 | 正方行列のうち、左上から右下への対角線上にのる成分(対角成分)がすべて1で、残りの要素が0である行列のこと |
転置 | 行列の行と列を入れ替えること |
微分 | 微分 |
積分 | 積分 |
定積分 | 範囲が決まっている積分 |
原始関数 | F(x)を微分してf(x)となったとき、Fをfの原始関数とよぶ |
導関数 | F(x)を微分してf(x)となったとき、fをFの導関数とよぶ |
不定積分 | 範囲が決まっていない積分 |
偏微分 | 1つの変数にだけ注目し、それ以外は定数として扱う |
代表値 | 集団の中心的傾向を示す値 |
最小値 | データの中で最も小さい値 |
最大値 | データの中で最も大きい値 |
平均値 | データの平均の値 |
中央値 | データを小さい順に並べて真ん中に来る値 |
最頻値 | データの中で最も頻繁に出現する値 |
分位数 | データの相対的位置をみるのに用いる数値 |
四分位数 | データを小さい順に並べて、全体の1/4番目に来るものを第1四分位数とよぶ(第2~4もある) |
分散 | 散らばりの度合いを表す値 |
標準偏差 | 分散の正の平方根のこと |
度数 | 各階級に属するものの個数のこと |
度数分布表 | 度数に属するデータがどのように散らばっているかを示す表のこと |
階級 | データの最大値と最小値の間を等間隔に区切ること |
ヒストグラム | 度数分布表を棒グラフで表現したもの |
箱ひげ図 | データを可視化するグラフの一つで、データの分布を把握したいときに使用する |
散布図 | 横軸と縦軸にそれぞれ別の量をとり、データが当てはまるところに点を打って示す(プロットする)グラフ |
相関係数 | 二つの変量の関係を表す係数 |
ピアソンの積率相関係数 | 有名な相関係数 |
スピアマンの順位相関係数 | 有名な相関係数 |
確率 | 確率 |
全事象 | 起こりえる事象の全体 |
条件付き確率 | ある事象が起こるという条件のもとで、別のある事象が起こる確率のこと |
ベイズの定理 | ある事象Xが起こる条件下で、別の事象Yの起こる確率を求めるための計算式 |
確率変数 | ある変数の値をとる確率が存在する変数 |
確率分布 | 確率変数がとる値とその値をとる確率の対応の様子 |
期待値 | 確率変数を含む関数の実現値に確率の重みをつけた加重平均、確率変数(ある出来事が起きた時に得られるスコア)×確率(その出来事が起きる確率)の和 |
分散 | 散らばりの度合いを表す値 |
確率質量関数 | 確率変数が離散的な場合 |
確率密度関数 | 確率変数が連続的な場合 |
離散一様分布 | 確率変数Xの値に関わらず,確率密度関数が常に一定の値を与える確率分布 |
正規分布 | 平均値と最頻値・中央値が一致し、それを軸として左右対称となっている確率分布 |