Python 機械学習プログラミング by Sebastian Raschkaら
読み始めた (2016/10/29)
キーワードだけ拾う。
第1章 「データから学習する能力」をコンピュータに与える
- 教師あり学習 (supervised learning) (p2)
- 教師なし学習 (unsupervised laerning) (p2)
- 強化学習 (reinforcement learning) (p2)
- 教師あり学習, 回帰 (regression), 出力:連続値 (p3)
- 陰性クラス (negative class) (p4)
- 陽性クラス (positive class) (p4)
- 決定境界 (decision boundary) (p4)
- 予測変数 (predictor variable) (p5)
- 応答変数 (response variable) (p5)
- 説明変数 (explanatory variable) (p5)
- 結果変数 (outcome) (p5)
- 強化学習 (reinforcement learning), 目標 (p6)
- 環境 (environment) (p6)
- エージェント (agent) (p6)
- 報酬 (reward) (p6)
- クラスタリング (clustering) (p7)
- 次元削減 (p8)
- dimensionality reduction
- dimension reduction
- 教師なし次元削減, 特徴量, 前処理 (p8)
- Irisデータセット (p9)
- $X \in R^{150 * 4}$ : 実数の集合, 150x4の行列 (p9)
- $x^i$ : i番目のトレーニングサンプル (p10)
- $x_j$ : トレーニングデータセットのj番目の次元 (p10)
- $x$ : ベクトル (太字の小文字) (p10)
- $X$ : 行列 (太字の大文字) (p10)
- $\it{x}$ : ベクトルまたは行列の1つの要素 (斜体) (p10)
- 予測モデリング (predictive modeling) (p10)
- 前処理 (preprocessing)が最も (p11)
- 抽出された特徴量によっては、相関が高いために一定の重複が認められるかもしれない。そのような場合は (p11)
- David Wolpert, 「ノーフリーランチ定理」(p12)
- この問題に対処するには (p12)
- モデルの汎化性能 (generalization performance) (p12)
- ハイパーパラメータ最適化 (hyperparameter optimization) (p12)
- 汎化誤差 (p13)
- NumPy, SciPy, Fortran,C,実装 (p13)
- Python3.4とPython2.7の相違点, まとめ (p13)
- pandas (p14)
- matplotlib (p14)
第2章 分類問題 - 機械学習アルゴリズムのトレーニング
- ADALINE (Adaptive Linear Neuron) (p17)
- scikit-learn (p17)
- MCPニューロン (McCulloch-Pittsニューロン) (p17)
- Warren McCulloch
- Walter Pitts
- Frank Rosenblatt, パーセプトロン, 学習規則, アルゴリズム (p18)
- 2つのクラス (p18)
- 1(陽性クラス)
- -1 (陰性クラス)
- 総入力 (net input) (p18)
- $\theta$ : 閾値 (p19)
- 単位ステップ関数 (p19)
- ヘビサイド関数 (Heaviside step function)
- $\hat{y}$ : 出力値 (p21)
- $\eta$ : 学習率 (0.0よりも大きく1.0以下の定数) (p21)
- fitメソッド (p24)
- predictメソッド (p24)
- アンダースコア (例
self.w_
): 慣例としてxxx属性にはxxx (p24) - おさらい (p24)
-
for _ in range(self.n_iter):
(p24)- (補足) ループ変数を使用しない時の書き方のようだ
- 一対全 (One-vs-All: OvA)の手法 (p27)
- UCI Machine Learning Repository, Irisデータセット (p27)
-
plt,scatter(長いので省略)
(p28) -
markers = ('s', 'x' , 'o', '^', 'V')
(p30) - Numpyのmeshgrid関数 (p31)
- パーセプトロンの学習規則が収束するのは (p32)
- 線形超平面 (p32)
- Frank Rosenblatt
- ADALINE (ADAptive LInear NEuron) (p32)
- Bernard Widrow, Tedd Hoff
- xxxと見なすことができる
- 主な違いは (p32)
- ADALINEの学習規則
- Rosenblattのパーセプトロン
- 恒等関数 (p32)
- Widrow-Hoff則 (p32)
- 量子化器 (quantizer) (p32)
- 目的関数 (objective function) (p33)
- コスト関数 (cost function) (p33)
- ADALINE, コスト関数J (p33)
- 誤差平方和 (Sum of Squared Error: SSE) (p33)
- 連続値の線形活性化関数の主な利点は (p33)
- このコスト関数のもう1つの特徴は (p33)
- 単位ステップ関数, 定義式 (p33)
- j番目の重みに対する誤差平方和のコスト関数の偏微分係数, 式変形 (p34)
- 「バッチ」勾配降下法 (p35)
-
self.cost_ = []
(p35)- (補足)
この意味は未学習 - (補足) 空のリストを作る、と理解した
- (補足)
-
self.w_[1:] += (省略)
(p36)- (補足) インデックス1以降の処理
- 分類モデルの性能を最適化するハイパーパラメータの値は (p37)
- 2種類の問題 (p37)
- スケーリング手法, 標準正規化 (standardization) (p38)
- その特性とは
- 式 (p39)
- Numpyのmeanメソッド, stdメソッド (p39)
- 確率的勾配降下法 (stochastic gradient descent) (p40)
- 逐次的勾配降下法 (iterative gradient descent) (p40)
- オンライン勾配降下法 (on-line gradient descent) (p40)
- 確率的勾配降下法はxxxと見なすことができるが (p40)
- トレーニングデータをシャッフルして循環を避ける (p41)
- 適応学習率 (adaptive learning rate) (p41)
- 確率的勾配降下法のもう1つの利点 (p41)
- オンライン学習 (online learning) (p41)
- これが特に役立つのは (p41)
- また、xxxできるようになる (p41)
- xxxできるため、学習アルゴリズムの計算効率をさらに引き上げることもできる (p41)
- 各エポックの前にトレーニングデータをシャッフル(shuffule)するオプション (p41)
- AdalineSGD分類器で使用している_shuffleメソッドはxxxを生成する (p42)
第3章 分類問題 - 機械学習ライブラリscikit-learnの活用
- 機械学習のアルゴリズムのトレーニング, 5つの主要なステップ (p48)
- (補足) 「アルゴリズムのトレーニング?」誤訳か?
- scikit-learnライブラリはxxxだけでなく、xxxを取り揃えている (p48)
-
np.unique(y)
(p49) - scikit-learnのpreprocessingモジュールのStandardScalerクラスを使って (p50)
- transformメソッドを呼び出し (p50)
- に注意しよう。これは (p50)
- これは一対多(OvR)手法が使用されるためxxxができる (p50)
- xxxできるよう、random_stateパラメータを使用している (p51)
- モデルの正解率, 誤差分類率 (p51)
- 過学習はxxxを意味する (p51)
- numpy meshgridの使用例 (p52)
- 完全線形分離が不可能なデータセットでは (p53)
- クラスが完全に線形分離できない場合であっても (p53)
- パーセプトロンの学習規則, 最大の問題点 (p54)
- ロジスティック回帰 (logistic regression) (p54)
- ロジスティック回帰, 高い性能が発揮されるのは (p54)
- オッズ比 (odds ratio), オッズ比は (p54)
- $p$ : 正事象の確率を表す (p54)
- (補足) TODO: 「正事象」の定義。以下の説明以外を調べる
- 正事象 (positive event)は (p54)
- ロジット(logit)関数, 式 (p54)
- 対数オッズの, 式 (p54)
- ロジスティック(logistic)関数, 式 (p55)
- シグモイド関数 (sigmoid)関数 (p55)
- ADALINEの実装, 恒等関数 (p56)
- シグモイド関数の出力, 解釈 (p57)
- 尤度L(ゆうど), 定義, 式$L(w)$ (p58)
- 実際には, xxxが簡単である (p58)
- 対数尤度(log likelihood)関数, 式$l(w)$ (p58)
- 対数関数を適用するとxxxの可能性が低下する (p58)
- コスト関数J (p58)
- ロジスティック回帰を独自に実装する場合は (p59)
- sklearn.linear_model.LogisticRegressionクラス (p59)
- 「この謎のパラメータCは何か」(p60)
- predict_probaメソッド (p61)
- j番目の重みに関して対数尤度関数を偏微分したもの, 式 (p61)
- シグモイド関数の偏導関数 (p61)
- 「バリアンスが高い」(high variance) (p62)
- 学習不足 (underfitting) (p63)
- (補足) 7of9のことか
- 「バイアスが高い」(high bias) (p63)
- バリアンスとは (p63)
- バリアンスが大きい場合は (p63)
- 対照的に、バイアスとは (p63)
- バイアスとバリアンスのトレードオフを探る方法の1つとして (p64)
- 正則化 (p64)
- 共線性 (collinearity) (p64)
- 共線性とは (p64)
- 正則化の背景にある考え方は (p64)
- 最も一般的な正則化 (p64)
- L2正則化 (L2 regularization) (p64)
- L2縮小推定 (L2 Shrinkage)
- 荷重減衰 (weight decay)
- (補足) @ 深層学習 by 岡谷貴之さん
- $\lambda$: 正則化パラメータ (regularization parameter) (p64)
- モデルの汎化誤差は次式のように分解される (p64)
- バイアスはxxxを定量化する (p64)
- 正則化を適用するにはxxxだけでよい (p65)
- $C$: scikit-learnのLogisticRegressionクラスに実装されている (p65)
- 正則化パラメター$\lambda$に直接関連, 式
- 逆正則化パラメータ$C$, 減らすことは (p65)
- 正則化の強さを可視化するには (p65)
- サポートベクトルマシン (Support Vector Machine : SVM) (p66)
- (補足) Separation of Variable Method (変数分離法)ではない
- SVM, と見なすことができる (p66)
- SVM, 最適化の目的 (p66)
- SVM, マージン, 定義 (p66)
- 超平面(決定境界) (p66)
- サポートベクトル (support vector), 図解 (p67)
- マージンの小さいモデル, xxxに陥りがち (p67)
- 正(positive)と負(negative)の超平面 (p67)
- 超平面, 式 (p67)
- ベクトルの長さ, 式 (p67)
- 式の左辺, 解釈 (p68)
- 2つの式 (3.4.6), を示している (p68)
- 簡潔に書くと, 式 (3.4.7) (p68)
- xxxが簡単である (p68)
- 二次計画法 (p68)
- Vladimir Vapnik著
- Christopher J.C. Burgesの論文
- スラック変数 $\xi$ (p68)
- 1995年, Vladimir Vapnik
- ソフトマージン分類
- スラック変数, 必要があったからだ (p68)
- $C$の値が大きい場合はxxxを意味し,xxxを意味する (p69)
- $C$, を調整できる (p69)
- $\lambda$の値が大きくなると (p69)
- ロジスティック回帰はxxxを最大化しようとする (p70)
- そのためxxxの影響を受けやすくなる
- scikit-learn, LogsiticRegressionクラス, LIBLINEARライブラリ (p71)
- scikit-learn, SVMのトレーニング, SVCクラス, LIBSVMライブラリ (p71)
- コンピュータのメモリ (p71)
- SGDClassifierクラス, 代替実装 (p71)
- SVM, 人気, 理由 (p71)
- カーネルSVM (kernel SVM) (p71)
-
X_xor = np.random.randn(200, 2)
(p72) - 射影関数 $φ(・)$, 高次元, 線形分離 (p73)
- クラスを分離 (p73)
- 射影手法, 問題 (p74)
- カーネルトリック (p74)
- (補足) 関連記事
- 動径基底関数カーネル (Radial Basis Function kernel) (p74)
- (補足) Vector Spherical Harmonicsとも関係するだろうか
- (補足) 級数展開 (expanded in Vector Spherical Harmonics)
- $\gamma$ : 式, 最適化されるハイパーパラメータ (p74)
- カーネル, 解釈 (p74)
- カーネル, マイナス記号 (p74)
- 1(まったく同じサンプル) (p74)
- 0(まったく異なるサンプル) (p74)
- $\gamma$: カーネル関数, カットオフ (p75)
- (補足) 電気回路で出てくるカットオフ周波数を思い出す
- (補足) 記事, 3dB
- 決定木 (decision tree)分類器 (p77)
- 意味解釈可能性 (interpretability) (p77)
- 決定木, xxxとい考えることができる (p77)
- 決定木, 情報利得 (information gain) (p78)
- 情報利得 (xxxの減少) (p78)
- 根 (ルート) (p78)
- 葉 (リーフ) (p78)
- 最も情報利得の高い特徴量でノードを分割するには (p78)
- 情報利得, 式 $IG(D_p, f)$ (p78)
- $f$ : 分割を行う特徴量 (p78)
- $D_p$ : 親のデータセット(p78)
- $D_j$ : j番目の子ノードのデータセット (p78)
- $I$: 不純度 (p79)
- $N_p$ : 親ノードのサンプルの総数 (p79)
- $N_j$ : j番目の子ノードのサンプルの個数 (p79)
- このように、情報利得はxxxにすぎない (p79)
- $D_{left}, D_{right}$ (p79)
- 二分木, 不純度の指標または分割条件 (p79)
- ジニ不純度 (Gini impurity) (p79)
- エントロピー (entropy) (p79)
- (補足) リッチフロー by グリーシャ
- 分類誤差 (classification error)
- $I_E$ : 分類誤差 (p79)
- $I_H$ : (補足) 何の式か不明 (p79)
- $p(i=1|t)$, $p(i=0|t)$ (p79)
- 二値分類でエントロピーが1になるのは (p79)
- ジニ不純度が最大になるのは (p79)
- 不純度のもう1つの指標, 分類誤差 (p80)
- $I_E$ : pを用いた式 (p80)
- $D_p$ : 親ノードのデータセット見ていこう (p80)
- 情報利得 (「親ノードの不純度」と「子ノードの不純度の合計」との差) (p80)
- (補足)以降、関連式が15ほど続く
- 上記の3種類の不純度条件を視覚的に比較できるよう (p82)
- ジニ不純度がエントロピーと分類誤差の中間に位置づけられることを確認するためにxxxも追加する (p82)
-
# エントロピー(2種)、ジニ不純度、分類誤差のそれぞれをループ処理
(p83) - 決定木、過学習 (p84)
- 特徴量のスケーリング、決定木 (p84)
- 決定木特有のものとして (p84)
- scikit-learn, トレーニング後の決定木, エクスポート (p85)
- GraphViz (p85)
- ランダムフォレスト (random forest), 特徴 (p86)
- ランダムフォレスト, 直観的には (p86)
- アンサンブル学習の背後にある考え方 (p86)
- 弱い学習アルゴリズム、強い学習アルゴリズム (p86)
- 汎化誤差, 過学習 (p86)
- ランダムフォレストアルゴリズム, 4ステップ (p86)
- 非復元抽出 (p87)
- 多数決, クラスラベルを割当て (p87)
- ランダムフォレスト、利点 (p87)
- xxxする必要はない (p87)
- については、最適化が可能である (p87)
- ブートストラップ標本の大きさ (p87)
- scikit-learn, RandomForestClassifier実装 (p87)
- $d$ : 各分割の特徴量の個数 (p87)
- トレーニングデータセットの特徴量の合計数 (p87)
- $d\sqrt{m}$ (p87)
- $m$ : トレーニングデータセットの特徴量の個数 (p87)
- これによりxxxできるようになる (p88)
- k近傍法分類器 (k-nearest neighbor classifier) (p89)
- KNN
- KNN, 怠惰学習 (lazy learner) (p89)
- 「怠惰」と呼ばれるのは (p89)
- パラメトリックモデル、ノンパラメトリックモデル (p89)
- パーセプトロン、ロジスティック回帰、線形SVM (p89)
- 決定木/ランダムフォレスト、カーネルSVM (p89)
- インスタンスに基づく学習 (instance-base learning) (p89)
- トレーニングデータセットを記憶する (p89)
- メモリベースのアプローチの主な利点 (p90)
- 多数決が同数である場合 (p91)
- scikit-learnのKNNアルゴリズムの実装では
- ユークリッド距離 (p91)
- minkowski距離 (p91)
- マンハッタン距離 (p91)
- minkowski距離, 式 (p91)
- 次元の呪い (p92)
- 次元の呪い, xxx現象を表す (p92)
- xxxを用いることで、次元の呪いから逃れることができる (p92)
第4章 データ前処理 - よりよいトレーニングセットの構築
- 欠測値 (missing value) (p93)
- データテーブルの空欄 (p93)
- NaN (Not a Number) (p93)
- プレースホルダ(仮の)文字列 (p93)
- 欠測値を無視した場合 (p93)
-
# Python 2.7を使用している場合は文字列をunicodeに変換する必要がある
(p94) - StringIO関数, 使用すると (p94)
- isnullメソッドを使って (p94)
- データの前処理, pandasのDataFrameクラス (p95)
- DataFrameオブジェクト, values属性 (p95)
-
df.dropna()
(p95) - axis引数を1に設定すれば (p95)
-
df.dropna(how='all')
(p95) -
df.dropna(thresh=4)
(p95) -
df.dropna(subset=['C'])
(p95) - 欠測データの削除, 問題点 (p96)
- 補間法(interpolation technique) (p96)
- 平均値補完 (mean imputation) (p96)
- (補足) 「補完」は「補間」の間違いではないだろうか。
- scikit-learnのImputerクラス (p96)
- strategy引数
- median
- most_frequent
- strategy引数
- most_frequent, xxxに役に立つ (p96)
- いわゆる変換器 (transformer)クラス (p96)
- 変換器, fit, transform (p96)
- 変換器, fitメソッドは (p96)
- 変換器, transformメソッドは (p96)
- 推定器, predictメソッド (p97)
- カテゴリデータ, 名義 (nominal)特徴量 (p98)
- カテゴリデータ, 順序 (ordinal)特徴量 (p98)
- 順序特徴量, 例 (p98)
- 数値特徴量 (p98)
- クラスラベル (p98)
- カテゴリ文字列, 整数に変換, 必要 (p99)
- 逆のマッピングを行うディクショナリ inv_size_mapping (p99)
- 多くの機械学習ライブラリ, xxxを要求する (p99)
- 変換されたクラスラベルを元の文字列表現に戻すには (p100)
- scikit-learnで直接実装されているLabelEncoderという便利なクラス (p100)
- カテゴリデータの処理で最もよくある間違いの1つ (p101)
- xxxの問題を回避する, one-hotエンコーディング (one-hot encoding) (p101)
- ダミー特徴量 (dummy feature) (p101)
- scikit-learn, OneHotEncoderクラス (p101)
- OneHotEncoderクラスはxxxのときに疎行列を返す (p102)
- pandasで実装されているget_dummies関数 (p102)
- Wineデータセット (p102)
- UCI Machine Learning Repository (p102)
- (補足) http://archive.ics.uci.edu/ml/
- テストデータとトレーニングデータセットにランダムに分割 (p104)
- train_test_split関数 (p104)
- scikit-learn, cross_validationモジュール (p104)
- データセット,分割, 注意 (p104)
- 汎化誤差の推定の正確性, トレードオフ (p104)
- xxxするとよいだろう (p104)
- 特徴量のスケーリング (feature scaling) (p105)
- 決定木とランダムフォレスト, xxxのない (p105)
- xxxの大半, xxx場合にはるかにうまく動作する (p105)
- 特徴量のスケーリング, 重要性 (p105)
- 尺度 (p105)
- 正規化 (normalization)
- 標準化 (standardization)
- 正規化, xxxを意味する (p105)
- xxxの特殊なケース (p105)
- $x_{norm}^{(i)}$ : サンプル$x^{(i)}$の新しい値, 式 (p105)
- min-maxスケーリング, scikit-learn (p105)
- 有界区間(ある範囲内) (p106)
- min-maxスケーリングによる正規化, に役立つ (p106)
- xxxのほうが実用的かもしれない, 理由 (p106)
- xxxを含めて、多くの線形モデルがxxx (p106)
- 標準化を使用する場合 (p106)
- 標準化の手続き, 式 (p106)
- 過学習 (overfitting) (p107)
- 過学習, 原因 (p107)
- 汎化誤差を減らすための一般的な方法 (p107)
- L2正則化, 式 (p107)
- L1正則化, 式 (p107)
- L1正則化, によって返されるのは (p107)
- L1正則化, どのようにして疎性を促すのか (p108)
- 正則化, 幾何学的解釈 (p108)
- 正則化, 次のように考える (p108)
- 正則化パラメータ$\lambda$, 強めることで (p108)
- L2のペナルティ項の概念, 図解 (p108)
- ここでxxxはxxxを超えられない (p109)
- 一方、xxxは最小化したい (p109)
- ここでの目標は (p109)
- xxxがない場合、xxxと理解できる (p109)
- L1正則化, 疎性 (p109)
- xxxと似ている。ただしxxx (p109)
- L2の項がxxxであることを (p109)
- ひし形 (p109)
- L1のひし形 (p110)
- 最適化条件はxxxにある可能性が高く (p110)
- L1正則化が疎な解につながる理由 (p110)
- Trevor Hastieら「The Elements of Statistical Learning」3.4節
- scikit-learn, L1正則化 (p110)
- penalty引数
- 正則化パスは (p112)
- 特徴選択による次元削減 (p113)
- 次元削減 (p113)
- 特徴選択 (feature selection)
- 特徴抽出 (feature extraction)
- 特徴選択では (p113)
- 特徴抽出では (p113)
- 特徴選択の典型的なアルゴリズム (p113)
- 逐次選択のアルゴリズム (p113)
- 貪欲探索 (greedy search) (p113)
- d次元, k次元 (k < d) (p113)
- 特徴選択のアルゴリズム, 2つの目的 (p113)
- 後者はxxxに役立つ (p114)
- 逐次後退選択 (Sequential Backward Selection: SBS) (p114)
- SBS, 目的 (p114)
- しらみつぶし探索法 (exhaustive search algorithm) (p114)
- xxxの観点でxxxではない (p114)
- SBS, アルゴリズム, 4つの単純なステップ (p114)
- SBS, Pythonで実装してみよう (p115)
- 特徴量, 部分集合, 分類問題, 推定器 (p116)
- fitメソッドのwhileループではxxxになるまで削減している (p116)
- テストデータセット, トレーニングデータセット, 分割 (p117)
- 元のテストデータセットがトレーニングデータセットの一部になるのを防ぐには (p117)
- 特徴量の個数を減らしたため (p117)
- KNNアルゴリズム, 次元の呪い (p117)
- さまざまな特徴選択法, 包括的説明 (p119)
- L1正則化付きロジスティック回帰, 無関係な特徴量, SBSアルゴリズム, 特徴量選択 (p119)
- 特徴量選択, ランダムフォレスト (p119)
- ランダムフォレスト, アンサンブル手法 (p119)
- xxx前提を設けなくても (p119)
-
indices = np.argsort(importance)[::-1]
(p120) -
n_jobs=-1
, すべてのコア (p120) - ランダムフォレスト, xxxに注意, 重要 (p120)
- L1正則化, xxxするのに役立つ (p122)
- 逐次特徴選択アルゴリズム, SBS (p122)
第10章 回帰分析; 連続値をとる目的変数の予測
- 回帰分析 (regression analysis) (p265)
- 説明変数, 目的変数, 図 (p266)
- 回帰直線 (regression line) (p266)
- オフセット(offset), 残差 (residual) (p266)
- 単回帰 (simple linear regression) (p266)
- 重回帰 (multiple linear regression) (p266)
- Housingデータセット (p267)
- UCI Machine Learning Repository
- MEDV: 住宅価格の中央値 (p267)
- pandasのDataFrameオブジェクト (p267)
- TODO: pandasの学習
- 探索的データ解析 (Exploratory Data Analysis: EDA) (p268)
- EDA, xxxとして推奨 (p268)
- 外れ値, データの分布, 特徴量の間の関係 (p268)
- 散布図行列, xxxを可視化できる (p268)
- 散布図行列, seabornライブラリのpairplot関数 (p268)
-
pip install seaborn
(p268) - seabornライブラリをインポートするとxxxが変更される (p269)
- RM(一戸あたりの平均部屋数) (p270)
- 通説とは対照的にxxx必要はない (p270)
- 相関行列 (p270)
- 相関行列, 共分散行列, 直感的には (p270)
- ピアソンの積率相関係数 (Pearson product-moment correlation coefficient), 正方行列 (p270)
- ピアソンのr (Pearson's r) (p270)
- 相関係数, 範囲 (p270)
- 正の相関, 負の相関 (p270)
- r = 0 (p270)
- ピアソンの積率相関係数, 式 (p270)
- $\mu$: 対応する特徴量の標本平均 (p270)
- $\sigma_{xy}$: 特徴量xおよびyの間の共分散
- $\sigma_x$と$\sigma_y$: それぞれの特徴量の標準偏差
- ピアソンの積率相関係数, 共分散, 標準偏差の積 (p270)
- NumPyのcorrcoef関数 (p271)
- seabornのheatmap関数 (p271)
- 線形回帰モデルを適合, 着目 (p272)
- 最小二乗法 (Ordinary Least Squares: OLS) (p272)
- (補足) Extraordinary ...というのはあるのかどうか
- OLS, 解釈 (p273)
- 回帰分析, より効率的な実装 (p277)
- 最小二乗法, 閉形式の解 (p278)
- 統計学入門の教科書
- 線形回帰, xxxに大きく左右され (p278)
- 外れ値の除去に代わる方法 (p278)
- RANSAC (RANdom SAmple Consensus)アルゴリズム (p278)
- 正常値 (inlier: 外れ値ではないもの) (p279)
- lambda関数, 呼び出し可能な (p279)
- lambda関数, xxxを計算する (p279)
- MAD, 目的値yの中央絶対偏差 (p279)
- 線形回帰直線 (正確には、超平面) (p281)
- xxxの場合、残差は0となる, 現実のアプリケーションでは(p282)
- よい回帰モデルでは (p282)
- モデル性能, 数値化 (p283)
- 平均二乗誤差(Mean Squared Error: MSE) (p283)
- MSE, に役立つ (p283)
- 決定係数 $R^2$ (p283)
- 決定係数, xxxと考えることができる (p283)
- SSE, 誤差平方和 (p283)
- SST (Sum of Squared Total), 式 (p283)
- つまり (p283)
- $R^2$: にすぎない, 式変形 (p284)
- モデルの極端なパラメータの重み、ペナルティ (p284)
- 正則化された線形回帰, 3つ (p284)
- リッジ回帰 (Ridge regression) (p284)
- LASSO (Least Absolute Shrinkage and Selection Operator) (p284)
- Elastic Net法 (p284)
- L2ペナルティ付きのモデル (p284)
- $J(w)_{Ridge}$
- L2 - を増やす、を引き上げ、を減らす (p285)
- LASSO,制約, m>nの場合 (p285)
- リッジ回帰, LASSO, Elastic Net (p285)
- Elastic Net, L1ペナルティ, L2ペナルティ (p285)
- 疎性, 選択される変数の個数xxx部分的に克服 (p285)
- k分割交差検証, パラメータ$\lambda$, 正則化の強さ (p285)
- 正則化の強さ, $\lambda$パラメータ, $\alpha$パラメータ (p285)
- linear_modelサブモジュールのLASSO回帰器 (p285)
- ElasticNet, l1_ratio引数 (p285)
- 多項式回帰, 曲線を見出す (p286)
- 線形回帰の係数w, 重回帰モデル (p286)
- scikit-learn, PolynomialFeatures変換器クラス (p286)
- 多項式回帰と線形回帰を比較する方法 (p286)
- linear fit, quadratic fit, training points, 図 (p287)
- 決定係数 ($R^2$), 線形モデル, 2次の多項式モデル, 適合 (p288)
- 多項式特徴量を追加, モデルの複雑さ, 過学習 (p289)
- 多項式の特徴量, 最良の選択であるとは限らない (p289)
- 説明変数を対数に変換しxxxできるようになる (p290)
- ランダムフォレスト回帰 (p290)
- ランダムフォレスト, 決定木, アンサンブル (p290)
- ランダムフォレスト, 区分線形関数の和, つまり (p290)
- 決定木アルゴリズムの利点 (p290)
- 決定木, 伸張させるには (p290)
- 決定木, エントロピー (p290)
- エントロピー, xxxするものである (p290)
- 回帰に決定木を使用するには (p291)
- $I(t)$, 式 ノードtの負純度指標であるエントロピー...(p291)
- $N_t$: ノードtのトレーニングサンプルの個数 (p291)
- $D_t$: ノードtのトレーニングサブセット (p291)
- $y^{(i)}$: 真の目的地 (p291)
- $\hat{y_t}$: 予測された目的値(サンプルの平均) (p291)
- MSE, 分割後のノード分散 (p291)
- 分割条件, 分散減少(variance reduction) (p291)
- scikit-learn, DecisionTreeRegressorクラス (p291)
- 決定木、モデル、制約 (p292)
- 決定木の深さ、過学習、学習不足 (p292)
- ランダムフォレスト、決定木、汎化性 (p292)
- 理由
- ランダムフォレスト、利点 (p292)
- ランダムフォレスト、パラメータ、実験が必要となるのは (p292)
- ランダムフォレスト、アルゴリズム、分類用のアルゴリズム (p292)
- 唯一の違い
- ランダムフォレスト、予測される目的変数、xxxして計算される (p292)
- SVM, 非線形回帰 (p294)
- SVM, 回帰, S.R.Gunn (p294)
- SVM回帰器, scikit-learn (p294)