##はじめに
本記事は機械学習の個人的な勉強におけるメモとして活用しています。
数式や実装は間違っている可能性がありますので、ご了承願います。
##線形回帰モデル
###要点のまとめ
- 回帰問題を解くための機械学習モデルの一つで機械学習の基本とも言えるモデル
$$
\Large y=w_{0}+w_{1}x_{1}+w_{2}x_{2}+\varepsilon
$$ - 教師あり学習(教師データから学習)
- 入力とm次元パラメータの線形結合を出力するモデル
- モデルの評価における損失関数として平均2乗誤差を使用
- 平均2乗誤差は外れ値の影響を受けるため、前処理段階で外れ値の有無を確認する必要がある
###実装結果と考察
ボストンの住宅データセットを用いて、部屋数が4で犯罪率が0.3の物件の価格を予想してみました。
実装コードURL
誤差と決定係数の出力結果は以下のようになりました。
決定係数が学習、検証ともに低くなっていますが、これは2つの説明変数しか用いなかったため、良い精度が得られなかったと考えられます。一応、説明変数を増やして再計算したところ、精度が上がることを確認できました。
##非線形回帰モデル
###要点のまとめ
- 回帰線を線形で表現することができない場合のモデル
$$
\Large y_{i}=w_{0}+\sum_{j=1}^{m}w_{j}\phi_{j}(x_{i})+\varepsilon_{i}
$$ - 現実の問題は非線形ことが多い
- 回帰関数として、基底関数と呼ばれる既知の非線形関数とパラメータベクトルの線型結合を使用
- 未知パラメータは線形回帰モデルと同様に最小2乗法や最尤法により推定
- よく使われる基底関数:多項式関数、ガウス型基底関数、スプライン関数/ Bスプライン関数
- 非線形を扱う場合は、数式が複雑になるので学習においては、未学習と過学習をいかに抑えるかがポイント
- モデルの評価にはホールドアウト法やクロスバリデーションがあるが、データ数に応じて選定する必要がある
###実装結果と考察
データセットは用いず、データをランダムに生成して実装を行ないました。
[実装コードURL]
(https://github.com/tomatty/report_b/blob/main/NonLinearRegressin.ipynb)
生成したデータに対し線形回帰が適さないことを確認
カーネルリッジを用いて非線形を表現
RBFカーネルをいて非線形を表現
##ロジスティック回帰モデル
###要点のまとめ
- 分類問題を解くための教師あり機械学習モデル
$$
\Large P(Y=1|x)=\sigma(w_{0}+w_{1}x_{1}+\cdots+w_{m}x_{m})
$$ - 大きな特徴は出力前にシグモイド関数を通していること
$$
\Large \sigma(x)=\cfrac{1}{1+exp(-ax)}
$$ - シグモイド関数を用いることで0〜1で出力される
- 出力が0〜1となるため、確率的に扱うことが可能となる
- シグモイド関数の微分はシグモイド関数を用いて表現することができる
\begin{align}
\cfrac{\partial\sigma(x)}{\partial x}&=\cfrac{\partial}{\partial x}\Bigg(\cfrac{1}{1+exp(-ax)}\Bigg)\\
&=a\sigma(x)(1-\sigma(x))
\end{align}
###実装結果と考察
タイタニックデータを用いて年齢ごとの生存成否を分類してみました。
実装コードURL
適合率も再現率もそこまで低くなく、ある程度の精度で分類できていることを確認しました。
##主成分分析
###要点のまとめ
- 多くの変数を持つデータの変数を削減し新たな変数を作成するモデル(次元削減)
- 次元削減はするが、データの情報量は大きく損なわずに保持可能
- 情報量を分散と捉えて、分散が大きい成分を主成分として抽出する
- 分散を最大にするデータを行列に置き換えて、固有値問題として解くことができる
###実装結果と考察
がん検査データを利用しロジスティック回帰モデルを作成した後、2次元に圧縮し判別してみました。
実装コードURL
次元圧縮前のスコア
2次元圧縮後のデータ散布図
次元圧縮後もかなり高い精度で判別できていることを確認しました。
##k-means
###要点のまとめ
- クラスタリングを行うための教師なし学習モデル
- アルゴリズム
- 各クラスタの中心の初期値を設定する
- 各データ点とクラスタの中心の距離を計算し、最も距離が近いクラスに割り当てる
- 各クラスタの平均ベクトルを計算し、クラスタの中心を更新する
- 収束するまで繰り返す
- k-meansは初期値依存性があるため、初期値によってはうまくクラスタリングできない可能性がある
- k-meansの初期値依存性を改善したモデルにk-means++がある
- クラスタの数によっても結果が変わることがある
###実装演習と考察
numpyを用いてランダムにデータを生成し、クラスタリングを行いました。
実装コードURL
上手く3つにクラスタリングできていることを確認しました。
##サポートベクターマシーン
###要点のまとめ
- サーポートベクトルマシンは古くからある手法で、回帰も分類もできるモデル
- 2クラス分類においては特徴ベクトルを分類するために決定関数を用いる
$$
\Large f(x)=w^T x+b
$$ - 2クラスへの分類は決定関数を介して出力されるラベルにより分類する。
\Large
\begin{equation}
y=signf(x)= \left \{
\begin{array}{l}
+1 (f(x)>0) \\
-1 (f(x)<0)
\end{array}
\right.
\end{equation}
- 特徴ベクトルを2つのクラスに分ける境界のことを分類境界という
- 分類境界を挟んで2つのクラスの距離をマージンという
- SVMの目的はマージンが最大となるような分類境界を見つけること
- 特徴ベクトルを完全に分離可能という考え方:ハードマージン
- 特徴ベクトルは完全に分離できず誤差(スラック変数)を許容するという考え方:ソフトマージン
###実装結果と考察
numpyを使って線形分離不可能なデータを生成し、SVMを用いて分離境界を作図してみました。
今回はRBFカーネルを用いました。
実装コードURL