More than 5 years have passed since last update.

Python 機械学習プログラミング > キーワード

Last updated at 2017-05-14Posted at 2016-10-30

Python 機械学習プログラミング by Sebastian Raschkaら

読み始めた (2016/10/29)

キーワードだけ拾う。

第1章「データから学習する能力」をコンピュータに与える

教師あり学習 (supervised learning) (p2)
教師なし学習 (unsupervised laerning) (p2)
強化学習 (reinforcement learning) (p2)
教師あり学習, 回帰 (regression), 出力:連続値 (p3)
陰性クラス (negative class) (p4)
陽性クラス (positive class) (p4)
決定境界 (decision boundary) (p4)
予測変数 (predictor variable) (p5)
応答変数 (response variable) (p5)
説明変数 (explanatory variable) (p5)
結果変数 (outcome) (p5)
強化学習 (reinforcement learning), 目標 (p6)
環境 (environment) (p6)
エージェント (agent) (p6)
報酬 (reward) (p6)
クラスタリング (clustering) (p7)
次元削減 (p8)
- dimensionality reduction
- dimension reduction
教師なし次元削減, 特徴量, 前処理 (p8)
Irisデータセット (p9)
$X \in R^{150 * 4}$ : 実数の集合, 150x4の行列 (p9)
$x^i$ : i番目のトレーニングサンプル (p10)
$x_j$ : トレーニングデータセットのj番目の次元 (p10)
$x$ : ベクトル (太字の小文字) (p10)
$X$ : 行列 (太字の大文字) (p10)
$\it{x}$ : ベクトルまたは行列の1つの要素 (斜体) (p10)
予測モデリング (predictive modeling) (p10)
前処理 (preprocessing)が最も (p11)
抽出された特徴量によっては、相関が高いために一定の重複が認められるかもしれない。そのような場合は (p11)
David Wolpert, 「ノーフリーランチ定理」(p12)
この問題に対処するには (p12)
モデルの汎化性能 (generalization performance) (p12)
ハイパーパラメータ最適化 (hyperparameter optimization) (p12)
汎化誤差 (p13)
NumPy, SciPy, Fortran,C,実装 (p13)
Python3.4とPython2.7の相違点, まとめ (p13)
pandas (p14)
matplotlib (p14)

第2章分類問題 - 機械学習アルゴリズムのトレーニング

ADALINE (Adaptive Linear Neuron) (p17)
scikit-learn (p17)
MCPニューロン (McCulloch-Pittsニューロン) (p17)
- Warren McCulloch
- Walter Pitts
Frank Rosenblatt, パーセプトロン, 学習規則, アルゴリズム (p18)
2つのクラス (p18)
- 1(陽性クラス)
- -1 (陰性クラス)
総入力 (net input) (p18)
$\theta$ : 閾値 (p19)
単位ステップ関数 (p19)
- ヘビサイド関数 (Heaviside step function)
$\hat{y}$ : 出力値 (p21)
$\eta$ : 学習率 (0.0よりも大きく1.0以下の定数) (p21)
fitメソッド (p24)
predictメソッド (p24)
アンダースコア (例 self.w_): 慣例としてxxx属性にはxxx (p24)
おさらい (p24)
- http://wiki.scipy.org/Tentative_NumPy_Tutorial
- http://pandas.pydata.org/pandas-docs/stable/tutorials.html
- http://matplotlib.org/users/beginner.html
for _ in range(self.n_iter): (p24)
- (補足) ループ変数を使用しない時の書き方のようだ
一対全 (One-vs-All: OvA)の手法 (p27)
UCI Machine Learning Repository, Irisデータセット (p27)
plt,scatter(長いので省略) (p28)
markers = ('s', 'x' , 'o', '^', 'V') (p30)
Numpyのmeshgrid関数 (p31)
パーセプトロンの学習規則が収束するのは (p32)
線形超平面 (p32)
- Frank Rosenblatt
ADALINE (ADAptive LInear NEuron) (p32)
- Bernard Widrow, Tedd Hoff
- xxxと見なすことができる
主な違いは (p32)
- ADALINEの学習規則
- Rosenblattのパーセプトロン
恒等関数 (p32)
Widrow-Hoff則 (p32)
量子化器 (quantizer) (p32)
目的関数 (objective function) (p33)
コスト関数 (cost function) (p33)
ADALINE, コスト関数J (p33)
誤差平方和 (Sum of Squared Error: SSE) (p33)
連続値の線形活性化関数の主な利点は (p33)
このコスト関数のもう１つの特徴は (p33)
単位ステップ関数, 定義式 (p33)
j番目の重みに対する誤差平方和のコスト関数の偏微分係数, 式変形 (p34)
「バッチ」勾配降下法 (p35)
self.cost_ = [] (p35)
- (補足) ~~この意味は未学習~~
- (補足) 空のリストを作る、と理解した
self.w_[1:] += (省略) (p36)
- (補足) インデックス1以降の処理
分類モデルの性能を最適化するハイパーパラメータの値は (p37)
2種類の問題 (p37)
スケーリング手法, 標準正規化 (standardization) (p38)
- その特性とは
- 式 (p39)
Numpyのmeanメソッド, stdメソッド (p39)
確率的勾配降下法 (stochastic gradient descent) (p40)
- 逐次的勾配降下法 (iterative gradient descent) (p40)
- オンライン勾配降下法 (on-line gradient descent) (p40)
確率的勾配降下法はxxxと見なすことができるが (p40)
トレーニングデータをシャッフルして循環を避ける (p41)
適応学習率 (adaptive learning rate) (p41)
確率的勾配降下法のもう１つの利点 (p41)
オンライン学習 (online learning) (p41)
これが特に役立つのは (p41)
また、xxxできるようになる (p41)
xxxできるため、学習アルゴリズムの計算効率をさらに引き上げることもできる (p41)
各エポックの前にトレーニングデータをシャッフル(shuffule)するオプション (p41)
AdalineSGD分類器で使用している_shuffleメソッドはxxxを生成する (p42)

第3章分類問題 - 機械学習ライブラリscikit-learnの活用

機械学習のアルゴリズムのトレーニング, 5つの主要なステップ (p48)
- (補足) 「アルゴリズムのトレーニング?」誤訳か?
scikit-learnライブラリはxxxだけでなく、xxxを取り揃えている (p48)
np.unique(y) (p49)
scikit-learnのpreprocessingモジュールのStandardScalerクラスを使って (p50)
transformメソッドを呼び出し (p50)
に注意しよう。これは (p50)
これは一対多(OvR)手法が使用されるためxxxができる (p50)
xxxできるよう、random_stateパラメータを使用している (p51)
モデルの正解率, 誤差分類率 (p51)
過学習はxxxを意味する (p51)
numpy meshgridの使用例 (p52)
完全線形分離が不可能なデータセットでは (p53)
クラスが完全に線形分離できない場合であっても (p53)
パーセプトロンの学習規則, 最大の問題点 (p54)
ロジスティック回帰 (logistic regression) (p54)
ロジスティック回帰, 高い性能が発揮されるのは (p54)
オッズ比 (odds ratio), オッズ比は (p54)
$p$ : 正事象の確率を表す (p54)
- (補足) TODO: 「正事象」の定義。以下の説明以外を調べる
正事象 (positive event)は (p54)
ロジット(logit)関数, 式 (p54)
対数オッズの, 式 (p54)
ロジスティック(logistic)関数, 式 (p55)
- シグモイド関数 (sigmoid)関数 (p55)
ADALINEの実装, 恒等関数 (p56)
シグモイド関数の出力, 解釈 (p57)
尤度L(ゆうど), 定義, 式$L(w)$ (p58)
実際には, xxxが簡単である (p58)
対数尤度(log likelihood)関数, 式$l(w)$ (p58)
対数関数を適用するとxxxの可能性が低下する (p58)
コスト関数J (p58)
ロジスティック回帰を独自に実装する場合は (p59)
sklearn.linear_model.LogisticRegressionクラス (p59)
「この謎のパラメータCは何か」(p60)
predict_probaメソッド (p61)
j番目の重みに関して対数尤度関数を偏微分したもの, 式 (p61)
シグモイド関数の偏導関数 (p61)
「バリアンスが高い」(high variance) (p62)
学習不足 (underfitting) (p63)
- (補足) 7of9のことか
「バイアスが高い」(high bias) (p63)
バリアンスとは (p63)
バリアンスが大きい場合は (p63)
対照的に、バイアスとは (p63)
バイアスとバリアンスのトレードオフを探る方法の１つとして (p64)
正則化 (p64)
共線性 (collinearity) (p64)
共線性とは (p64)
正則化の背景にある考え方は (p64)
最も一般的な正則化 (p64)
L2正則化 (L2 regularization) (p64)
- L2縮小推定 (L2 Shrinkage)
- 荷重減衰 (weight decay)
  - (補足) @ 深層学習 by 岡谷貴之さん
$\lambda$: 正則化パラメータ (regularization parameter) (p64)
モデルの汎化誤差は次式のように分解される (p64)
バイアスはxxxを定量化する (p64)
正則化を適用するにはxxxだけでよい (p65)
$C$: scikit-learnのLogisticRegressionクラスに実装されている (p65)
- 正則化パラメター$\lambda$に直接関連, 式
逆正則化パラメータ$C$, 減らすことは (p65)
正則化の強さを可視化するには (p65)
サポートベクトルマシン (Support Vector Machine : SVM) (p66)
- (補足) Separation of Variable Method (変数分離法)ではない
SVM, と見なすことができる (p66)
SVM, 最適化の目的 (p66)
SVM, マージン, 定義 (p66)
超平面(決定境界) (p66)
サポートベクトル (support vector), 図解 (p67)
マージンの小さいモデル, xxxに陥りがち (p67)
正(positive)と負(negative)の超平面 (p67)
超平面, 式 (p67)
ベクトルの長さ, 式 (p67)
式の左辺, 解釈 (p68)
2つの式 (3.4.6), を示している (p68)
簡潔に書くと, 式 (3.4.7) (p68)
xxxが簡単である (p68)
二次計画法 (p68)
- Vladimir Vapnik著
- Christopher J.C. Burgesの論文
スラック変数 $\xi$ (p68)
- 1995年, Vladimir Vapnik
- ソフトマージン分類
スラック変数, 必要があったからだ (p68)
$C$の値が大きい場合はxxxを意味し,xxxを意味する (p69)
$C$, を調整できる (p69)
$\lambda$の値が大きくなると (p69)
ロジスティック回帰はxxxを最大化しようとする (p70)
- そのためxxxの影響を受けやすくなる
scikit-learn, LogsiticRegressionクラス, LIBLINEARライブラリ (p71)
scikit-learn, SVMのトレーニング, SVCクラス, LIBSVMライブラリ (p71)
コンピュータのメモリ (p71)
SGDClassifierクラス, 代替実装 (p71)
SVM, 人気, 理由 (p71)
カーネルSVM (kernel SVM) (p71)
X_xor = np.random.randn(200, 2) (p72)
射影関数 $φ(・)$, 高次元, 線形分離 (p73)
クラスを分離 (p73)
射影手法, 問題 (p74)
カーネルトリック (p74)
- (補足) 関連記事
動径基底関数カーネル (Radial Basis Function kernel) (p74)
- (補足) Vector Spherical Harmonicsとも関係するだろうか
- (補足) 級数展開 (expanded in Vector Spherical Harmonics)
$\gamma$ : 式, 最適化されるハイパーパラメータ (p74)
カーネル, 解釈 (p74)
カーネル, マイナス記号 (p74)
1(まったく同じサンプル) (p74)
0(まったく異なるサンプル) (p74)
$\gamma$: カーネル関数, カットオフ (p75)
- (補足) 電気回路で出てくるカットオフ周波数を思い出す
- (補足) 記事, 3dB
決定木 (decision tree)分類器 (p77)
意味解釈可能性 (interpretability) (p77)
決定木, xxxとい考えることができる (p77)
決定木, 情報利得 (information gain) (p78)
情報利得 (xxxの減少) (p78)
根 (ルート) (p78)
葉 (リーフ) (p78)
最も情報利得の高い特徴量でノードを分割するには (p78)
情報利得, 式 $IG(D_p, f)$ (p78)
- $f$ : 分割を行う特徴量 (p78)
- $D_p$ : 親のデータセット(p78)
- $D_j$ : j番目の子ノードのデータセット (p78)
- $I$: 不純度 (p79)
- $N_p$ : 親ノードのサンプルの総数 (p79)
- $N_j$ : j番目の子ノードのサンプルの個数 (p79)
このように、情報利得はxxxにすぎない (p79)
$D_{left}, D_{right}$ (p79)
二分木, 不純度の指標または分割条件 (p79)
- ジニ不純度 (Gini impurity) (p79)
- エントロピー (entropy) (p79)
  - (補足) リッチフロー by グリーシャ
- 分類誤差 (classification error)
$I_E$ : 分類誤差 (p79)
$I_H$ : (補足) 何の式か不明 (p79)
$p(i=1|t)$, $p(i=0|t)$ (p79)
二値分類でエントロピーが1になるのは (p79)
ジニ不純度が最大になるのは (p79)
不純度のもう１つの指標, 分類誤差 (p80)
$I_E$ : pを用いた式 (p80)
$D_p$ : 親ノードのデータセット見ていこう (p80)
情報利得 (「親ノードの不純度」と「子ノードの不純度の合計」との差) (p80)
（補足）以降、関連式が15ほど続く
上記の3種類の不純度条件を視覚的に比較できるよう (p82)
ジニ不純度がエントロピーと分類誤差の中間に位置づけられることを確認するためにxxxも追加する (p82)
# エントロピー(2種)、ジニ不純度、分類誤差のそれぞれをループ処理 (p83)
決定木、過学習 (p84)
特徴量のスケーリング、決定木 (p84)
決定木特有のものとして (p84)
scikit-learn, トレーニング後の決定木, エクスポート (p85)
GraphViz (p85)
ランダムフォレスト (random forest), 特徴 (p86)
ランダムフォレスト, 直観的には (p86)
アンサンブル学習の背後にある考え方 (p86)
弱い学習アルゴリズム、強い学習アルゴリズム (p86)
汎化誤差, 過学習 (p86)
ランダムフォレストアルゴリズム, 4ステップ (p86)
非復元抽出 (p87)
多数決, クラスラベルを割当て (p87)
ランダムフォレスト、利点 (p87)
xxxする必要はない (p87)
については、最適化が可能である (p87)
ブートストラップ標本の大きさ (p87)
scikit-learn, RandomForestClassifier実装 (p87)
$d$ : 各分割の特徴量の個数 (p87)
トレーニングデータセットの特徴量の合計数 (p87)
$d\sqrt{m}$ (p87)
$m$ : トレーニングデータセットの特徴量の個数 (p87)
これによりxxxできるようになる (p88)
k近傍法分類器 (k-nearest neighbor classifier) (p89)
- KNN
KNN, 怠惰学習 (lazy learner) (p89)
「怠惰」と呼ばれるのは (p89)
パラメトリックモデル、ノンパラメトリックモデル (p89)
- パーセプトロン、ロジスティック回帰、線形SVM (p89)
- 決定木/ランダムフォレスト、カーネルSVM (p89)
インスタンスに基づく学習 (instance-base learning) (p89)
トレーニングデータセットを記憶する (p89)
メモリベースのアプローチの主な利点 (p90)
多数決が同数である場合 (p91)
- scikit-learnのKNNアルゴリズムの実装では
ユークリッド距離 (p91)
minkowski距離 (p91)
マンハッタン距離 (p91)
minkowski距離, 式 (p91)
次元の呪い (p92)
次元の呪い, xxx現象を表す (p92)
xxxを用いることで、次元の呪いから逃れることができる (p92)

第4章データ前処理 - よりよいトレーニングセットの構築

欠測値 (missing value) (p93)
データテーブルの空欄 (p93)
NaN (Not a Number) (p93)
プレースホルダ(仮の)文字列 (p93)
欠測値を無視した場合 (p93)
# Python 2.7を使用している場合は文字列をunicodeに変換する必要がある (p94)
StringIO関数, 使用すると (p94)
isnullメソッドを使って (p94)
データの前処理, pandasのDataFrameクラス (p95)
DataFrameオブジェクト, values属性 (p95)
df.dropna() (p95)
axis引数を1に設定すれば (p95)
df.dropna(how='all') (p95)
df.dropna(thresh=4) (p95)
df.dropna(subset=['C']) (p95)
欠測データの削除, 問題点 (p96)
補間法(interpolation technique) (p96)
平均値補完 (mean imputation) (p96)
- (補足) 「補完」は「補間」の間違いではないだろうか。
scikit-learnのImputerクラス (p96)
- strategy引数
  - median
  - most_frequent
most_frequent, xxxに役に立つ (p96)
いわゆる変換器 (transformer)クラス (p96)
変換器, fit, transform (p96)
変換器, fitメソッドは (p96)
変換器, transformメソッドは (p96)
推定器, predictメソッド (p97)
カテゴリデータ, 名義 (nominal)特徴量 (p98)
カテゴリデータ, 順序 (ordinal)特徴量 (p98)
順序特徴量, 例 (p98)
数値特徴量 (p98)
クラスラベル (p98)
カテゴリ文字列, 整数に変換, 必要 (p99)
逆のマッピングを行うディクショナリ inv_size_mapping (p99)
多くの機械学習ライブラリ, xxxを要求する (p99)
変換されたクラスラベルを元の文字列表現に戻すには (p100)
scikit-learnで直接実装されているLabelEncoderという便利なクラス (p100)
カテゴリデータの処理で最もよくある間違いの1つ (p101)
xxxの問題を回避する, one-hotエンコーディング (one-hot encoding) (p101)
ダミー特徴量 (dummy feature) (p101)
scikit-learn, OneHotEncoderクラス (p101)
OneHotEncoderクラスはxxxのときに疎行列を返す (p102)
pandasで実装されているget_dummies関数 (p102)
Wineデータセット (p102)
- UCI Machine Learning Repository (p102)
- (補足) http://archive.ics.uci.edu/ml/
テストデータとトレーニングデータセットにランダムに分割 (p104)
train_test_split関数 (p104)
scikit-learn, cross_validationモジュール (p104)
データセット,分割, 注意 (p104)
汎化誤差の推定の正確性, トレードオフ (p104)
xxxするとよいだろう (p104)
特徴量のスケーリング (feature scaling) (p105)
決定木とランダムフォレスト, xxxのない (p105)
xxxの大半, xxx場合にはるかにうまく動作する (p105)
特徴量のスケーリング, 重要性 (p105)
尺度 (p105)
- 正規化 (normalization)
- 標準化 (standardization)
正規化, xxxを意味する (p105)
xxxの特殊なケース (p105)
$x_{norm}^{(i)}$ : サンプル$x^{(i)}$の新しい値, 式 (p105)
min-maxスケーリング, scikit-learn (p105)
有界区間(ある範囲内) (p106)
min-maxスケーリングによる正規化, に役立つ (p106)
xxxのほうが実用的かもしれない, 理由 (p106)
xxxを含めて、多くの線形モデルがxxx (p106)
標準化を使用する場合 (p106)
標準化の手続き, 式 (p106)
過学習 (overfitting) (p107)
過学習, 原因 (p107)
汎化誤差を減らすための一般的な方法 (p107)
L2正則化, 式 (p107)
L1正則化, 式 (p107)
L1正則化, によって返されるのは (p107)
L1正則化, どのようにして疎性を促すのか (p108)
正則化, 幾何学的解釈 (p108)
正則化, 次のように考える (p108)
正則化パラメータ$\lambda$, 強めることで (p108)
L2のペナルティ項の概念, 図解 (p108)
ここでxxxはxxxを超えられない (p109)
一方、xxxは最小化したい (p109)
ここでの目標は (p109)
xxxがない場合、xxxと理解できる (p109)
L1正則化, 疎性 (p109)
xxxと似ている。ただしxxx (p109)
L2の項がxxxであることを (p109)
ひし形 (p109)
L1のひし形 (p110)
最適化条件はxxxにある可能性が高く (p110)
L1正則化が疎な解につながる理由 (p110)
- Trevor Hastieら「The Elements of Statistical Learning」3.4節
scikit-learn, L1正則化 (p110)
- penalty引数
正則化パスは (p112)
特徴選択による次元削減 (p113)
次元削減 (p113)
- 特徴選択 (feature selection)
- 特徴抽出 (feature extraction)
特徴選択では (p113)
特徴抽出では (p113)
特徴選択の典型的なアルゴリズム (p113)
逐次選択のアルゴリズム (p113)
貪欲探索 (greedy search) (p113)
d次元, k次元 (k < d) (p113)
特徴選択のアルゴリズム, 2つの目的 (p113)
- 後者はxxxに役立つ (p114)
逐次後退選択 (Sequential Backward Selection: SBS) (p114)
SBS, 目的 (p114)
しらみつぶし探索法 (exhaustive search algorithm) (p114)
xxxの観点でxxxではない (p114)
SBS, アルゴリズム, 4つの単純なステップ (p114)
SBS, Pythonで実装してみよう (p115)
特徴量, 部分集合, 分類問題, 推定器 (p116)
fitメソッドのwhileループではxxxになるまで削減している (p116)
テストデータセット, トレーニングデータセット, 分割 (p117)
元のテストデータセットがトレーニングデータセットの一部になるのを防ぐには (p117)
特徴量の個数を減らしたため (p117)
KNNアルゴリズム, 次元の呪い (p117)
さまざまな特徴選択法, 包括的説明 (p119)
- http://scikit-learn.org/stable/modules/feature_selection.html
L1正則化付きロジスティック回帰, 無関係な特徴量, SBSアルゴリズム, 特徴量選択 (p119)
特徴量選択, ランダムフォレスト (p119)
ランダムフォレスト, アンサンブル手法 (p119)
xxx前提を設けなくても (p119)
indices = np.argsort(importance)[::-1] (p120)
n_jobs=-1, すべてのコア (p120)
ランダムフォレスト, xxxに注意, 重要 (p120)
L1正則化, xxxするのに役立つ (p122)
逐次特徴選択アルゴリズム, SBS (p122)

第10章回帰分析; 連続値をとる目的変数の予測

回帰分析 (regression analysis) (p265)
説明変数, 目的変数, 図 (p266)
回帰直線 (regression line) (p266)
オフセット(offset), 残差 (residual) (p266)
単回帰 (simple linear regression) (p266)
重回帰 (multiple linear regression) (p266)
Housingデータセット (p267)
- UCI Machine Learning Repository
- MEDV: 住宅価格の中央値 (p267)
pandasのDataFrameオブジェクト (p267)
- TODO: pandasの学習
探索的データ解析 (Exploratory Data Analysis: EDA) (p268)
EDA, xxxとして推奨 (p268)
外れ値, データの分布, 特徴量の間の関係 (p268)
散布図行列, xxxを可視化できる (p268)
散布図行列, seabornライブラリのpairplot関数 (p268)
pip install seaborn (p268)
seabornライブラリをインポートするとxxxが変更される (p269)
RM(一戸あたりの平均部屋数) (p270)
通説とは対照的にxxx必要はない (p270)
相関行列 (p270)
相関行列, 共分散行列, 直感的には (p270)
ピアソンの積率相関係数 (Pearson product-moment correlation coefficient), 正方行列 (p270)
ピアソンのr (Pearson's r) (p270)
相関係数, 範囲 (p270)
正の相関, 負の相関 (p270)
r = 0 (p270)
ピアソンの積率相関係数, 式 (p270)
- $\mu$: 対応する特徴量の標本平均 (p270)
- $\sigma_{xy}$: 特徴量xおよびyの間の共分散
- $\sigma_x$と$\sigma_y$: それぞれの特徴量の標準偏差
ピアソンの積率相関係数, 共分散, 標準偏差の積 (p270)
NumPyのcorrcoef関数 (p271)
seabornのheatmap関数 (p271)
線形回帰モデルを適合, 着目 (p272)
最小二乗法 (Ordinary Least Squares: OLS) (p272)
- (補足) Extraordinary ...というのはあるのかどうか
OLS, 解釈 (p273)
回帰分析, より効率的な実装 (p277)
最小二乗法, 閉形式の解 (p278)
- 統計学入門の教科書
線形回帰, xxxに大きく左右され (p278)
外れ値の除去に代わる方法 (p278)
RANSAC (RANdom SAmple Consensus)アルゴリズム (p278)
正常値 (inlier: 外れ値ではないもの） (p279)
lambda関数, 呼び出し可能な (p279)
lambda関数, xxxを計算する (p279)
MAD, 目的値yの中央絶対偏差 (p279)
線形回帰直線 (正確には、超平面) (p281)
xxxの場合、残差は0となる, 現実のアプリケーションでは(p282)
よい回帰モデルでは (p282)
モデル性能, 数値化 (p283)
平均二乗誤差(Mean Squared Error: MSE) (p283)
MSE, に役立つ (p283)
決定係数 $R^2$ (p283)
決定係数, xxxと考えることができる (p283)
SSE, 誤差平方和 (p283)
SST (Sum of Squared Total), 式 (p283)
- つまり (p283)
$R^2$: にすぎない, 式変形 (p284)
モデルの極端なパラメータの重み、ペナルティ (p284)
正則化された線形回帰, 3つ (p284)
リッジ回帰 (Ridge regression) (p284)
LASSO (Least Absolute Shrinkage and Selection Operator) (p284)
Elastic Net法 (p284)
L2ペナルティ付きのモデル (p284)
-　$J(w)_{Ridge}$
-　L2
を増やす、を引き上げ、を減らす　（p285）
LASSO,制約, m>nの場合 (p285)
リッジ回帰, LASSO, Elastic Net (p285)
Elastic Net, L1ペナルティ, L2ペナルティ (p285)
疎性, 選択される変数の個数xxx部分的に克服 (p285)
k分割交差検証, パラメータ$\lambda$, 正則化の強さ (p285)
正則化の強さ, $\lambda$パラメータ, $\alpha$パラメータ (p285)
linear_modelサブモジュールのLASSO回帰器 (p285)
ElasticNet, l1_ratio引数 (p285)
多項式回帰, 曲線を見出す (p286)
線形回帰の係数w, 重回帰モデル (p286)
scikit-learn, PolynomialFeatures変換器クラス (p286)
多項式回帰と線形回帰を比較する方法 (p286)
linear fit, quadratic fit, training points, 図 (p287)
決定係数 ($R^2$), 線形モデル, 2次の多項式モデル, 適合 (p288)
多項式特徴量を追加, モデルの複雑さ, 過学習 (p289)
多項式の特徴量, 最良の選択であるとは限らない (p289)
説明変数を対数に変換しxxxできるようになる (p290)
ランダムフォレスト回帰 (p290)
ランダムフォレスト, 決定木, アンサンブル (p290)
ランダムフォレスト, 区分線形関数の和, つまり (p290)
決定木アルゴリズムの利点 (p290)
決定木, 伸張させるには (p290)
決定木, エントロピー (p290)
エントロピー, xxxするものである (p290)
回帰に決定木を使用するには (p291)
$I(t)$, 式ノードtの負純度指標であるエントロピー...(p291)
$N_t$: ノードtのトレーニングサンプルの個数 (p291)
$D_t$: ノードtのトレーニングサブセット (p291)
$y^{(i)}$: 真の目的地 (p291)
$\hat{y_t}$: 予測された目的値(サンプルの平均) (p291)
MSE, 分割後のノード分散 (p291)
分割条件, 分散減少(variance reduction) (p291)
scikit-learn, DecisionTreeRegressorクラス (p291)
決定木、モデル、制約 (p292)
決定木の深さ、過学習、学習不足 (p292)
ランダムフォレスト、決定木、汎化性 (p292)
- 理由
ランダムフォレスト、利点 (p292)
ランダムフォレスト、パラメータ、実験が必要となるのは (p292)
ランダムフォレスト、アルゴリズム、分類用のアルゴリズム (p292)
- 唯一の違い
ランダムフォレスト、予測される目的変数、xxxして計算される (p292)
SVM, 非線形回帰 (p294)
SVM, 回帰, S.R.Gunn (p294)
SVM回帰器, scikit-learn (p294)

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

Python 機械学習プログラミング > キーワード

第1章 「データから学習する能力」をコンピュータに与える

第2章 分類問題 - 機械学習アルゴリズムのトレーニング

第3章 分類問題 - 機械学習ライブラリscikit-learnの活用

第4章 データ前処理 - よりよいトレーニングセットの構築

第10章 回帰分析; 連続値をとる目的変数の予測

第1章「データから学習する能力」をコンピュータに与える

第2章分類問題 - 機械学習アルゴリズムのトレーニング

第3章分類問題 - 機械学習ライブラリscikit-learnの活用

第4章データ前処理 - よりよいトレーニングセットの構築

第10章回帰分析; 連続値をとる目的変数の予測