More than 1 year has passed since last update.

ロジスティック回帰に対するloglossを偏微分して機械学習の学習フェーズの流れを学ぶ

Last updated at 2023-02-02Posted at 2023-02-02

前書き

筆者はこの分野を専門に学んでいたわけではないのですごく詳しいというわけではないです。
素人がこの分野を理解するにあたってこのような体系で理解しましたという一例と思って読んでください。

この記事では、偏微分などを扱うので、大学数学(解析学や線形代数)の基礎ぐらいの素養を持っている読者を想定して書いていますが、高校数学までの知識でも十分理解できる範囲かと思います。
ぶっちゃけ筆者も大学数学に造詣が深いわけではないのでそこまで高度なことは扱えません。

なお、誤りの指摘は歓迎します。

a. 機械学習における学習の流れ

はじめに、機械学習の学習の全体の流れを簡単に説明しておく。
必ずしも全ての場合に厳密にこの流れになるわけではないが、大枠は下図のようになる。

まず、全体として、モデル作成フェーズと、モデル活用フェーズに分かれる。

モデル作成フェーズでは、

特徴量の作成などを行い、特徴量と正解ラベルから成るデータセットを用意する。(本記事では扱わないが実際はここが一番重要な工程)
出来上がったデータセットを分割し、①学習に用いる教師データと、モデルを評価するためのバリデーションデータを用意する。
予測に使う②モデルの種類を決定する。
①の教師データを学習させ、③モデル(学習済)を作成する。
①のバリデーションデータを③モデル(学習済)に入力し、バリデーションデータに対する④予測値を計算する。
④の予測値から⑤評価値を算出し、③モデル(学習済)の良し悪しを判定する。
⑤の評価値が不十分な場合は、①特徴量の追加の検討や、②モデル、モデルの学習のさせ方などを見直し、再度③モデル(学習済)を作成する。
これを十分な評価値が得られるまで繰り返す。
⑤の評価値が十分だと判断できる場合は③モデル(学習済)を⑥モデル(本番)として採用し、モデル活用フェーズに進む。

モデル活用フェーズでは、正解ラベルが分かってない、予測対象の⑦実データを⑥モデル(本番)に入力し⑧予測値を算出し、これを活用する。
上記の流れをコードで示すと次のようなイメージになる。

# モデル作成フェーズ

from sklearn.model_selection import train_test_split

# prep_dfを特徴量などが作成済みのデータセット
# Survivedはこのデータセットにおける正解ラベル相当
df_x = prep_df.drop(columns=['Survived'])
df_y = prep_df['Survived']

# 1. ①の学習用データとバリデーションデータを用意
train_x, valid_x, train_y, valid_y = train_test_split(df_x, df_y, test_size=0.25, random_state=42)

# 2. ②のモデルの種類を選択
# ここではロジスティック回帰モデル
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(penalty='l2', C=1.0, random_state=42, max_iter=100)

# 3. モデルの学習を行いモデル(学習済)を得る
model.fit(train_x, train_y)

# 4. ①のバリデーションデータを③モデル(学習済)に入力とし④予測値を計算
y_pred = model.predict_proba(valid_x)

# 5. ④の予測値から⑤評価値を算出
# ここでは評価指標はlogloss
from sklearn.metrics import log_loss
logloss_valid = log_loss(y_true=valid_y, y_pred=y_pred)

# 6.logloss_validを見て評価値が十分かどうか検討する
# 十分だと判断した場合はこのモデルを⑥モデル(本番)とし、ファイルに保存しておく
import joblib
joblib.dump(model, 'model.joblib')

# モデル活用フェーズ
# 予測値を使う本番環境で行う操作

# ⑥モデル(本番)をファイルから復元する
import joblib
model = joblib.load('model.joblib')

# ⑦の実データ
# これは正解ラベルが未知なのでモデルを使って予測値を算出する。
df

# ⑧の予測値を計算
prediction_df = model.predict_proba(df)

以降では主にモデル作成フェーズについて解説する。

b. 教師データに関する図

この記事ではそれなりに数式に踏み込もうと思うので①の教師データと数式中で用いる記号の対応を最初に図示しておく。
なお、バリデーションデータについてもデータの形式は同じである。

c. 2値分類におけるロジスティック回帰モデル

ここでは、②のモデルの種類の1つとして、ロジスティック回帰モデルを取り上げる。
ロジスティック回帰はシンプルなモデルであるため、複雑な問題設定のデータに対する予測の精度は出づらいが、計算量が比較的少ないため、予測時の応答時間にシビアな2値分類のアプリケーションで利用されることがある。

2値分類では、目的変数は正例/負例のいずれかとなる。
正例を1、負例を0とすると、目的変数を表す確率変数$Y$は、$Y \in \{0, 1\}$ となる。

$i$番目のレコードの目的変数の値を$y_i$、特徴量ベクトルを$\mathbf{x_i}$とする。
ロジスティック回帰モデルは、$y_i$が正例である確率 $Pr(y_i = 1|\mathbf{x_i})　を予測値 \widehat{y_i}$ としたとき、負例である確率$1 - \widehat{y_i}$ とのオッズ比の対数を線形結合でモデル化したものである。¹

つまり、　

\begin{equation}
\ln(\frac{\widehat{y_i}}{1-\widehat{y_i}}) = w_0 + w_1x_{i1} + w_2x_{i2} + ... = w_0 + \sum_{j=1}^M w_j x_{ij}
\end{equation}

で表される。

右辺 $w_0 + \sum_{j=1}^M w_j x_{ij} = \theta_i$ とおくと、

\begin{equation}
\frac{\widehat{y_i}}{1-\widehat{y_i}} = e^{\theta_i}
\end{equation}

これを$\widehat{y_i}$について解くと、

\begin{equation}
\widehat{y_i} = \frac{1}{1 + e^{-\theta_i}}
\end{equation}

となり、シグモイド関数²で表される。
これは中間層なしで活性関数にシグモイド関数を使ったニューラルネットワークと同じ...?

d. 教師あり学習における学習とは

教師あり学習では、教師データとして、特徴量ベクトル$\mathbf{x_i}$とそれに対して観測された正解ラベル$y_i$の組が複数与えられる。
学習とは、与えられた学習データから予測した予測値と正解ラベルとの関係性を評価する目的関数を最良にするモデルパラメータを決定する工程である。

前項c.で紹介したロジスティック回帰モデルにおけるモデルパラメータは、各特徴量の重みを表す係数$(w_0, w_1, w_2, ...)$である。

冒頭の図のように、$i$番目のレコードの正解ラベルの値を$y_i$、モデルから算出される予測値を$\widehat{y_i}$とする。
2値分類では目的関数にloglossを用いることが多いため、これを目的関数にしたと仮定すると、次のような式で表される。

\begin{eqnarray}
logloss &=& -\frac{1}{N} \sum_{i=1}^N (y_i log \widehat{y_i} + (1 - y_i)log (1 - \widehat{y_i})) \\ 
&=& -\frac{1}{N}  \sum_{i=1}^N (y_i log \frac{1}{1 + e^{-(w_0 +  \sum_{j=1}^M w_j x_{ij})}} + (1 - y_i)log(1 - \frac{1}{1 + e^{-(w_0 + \sum_{j=1}^M w_j x_{ij})}}))
\end{eqnarray}

loglossは小さい方が良い指標なので、与えられた教師データに対し、これを最小にするようなモデルパラメータ$(w_0, w_1, w_2, ...)$の値を求める。
この結果として、③のモデル(学習済)が得られる。

e. 過学習と正則化項

過学習

モデルが教師データに過剰に適合して、汎化性能を失ってしまうことを過学習という。
このトピックに関してはPRML 1章がわかりやすいので、この内容をベースに説明する。

この節の説明は2値分類ではなく、回帰をベースにした説明になっているので注意

下図は、緑線で表される真のモデルに、正規分布に従うランダムノイズを乗せて擬似的に生成した学習データ(青丸)を用いてモデルを学習した際に、どのようなモデル(赤線)が生成されたかを示した図になっている。
ここまでの説明との対応をとると、緑線は正解ラベル$y$、横軸$x$は特徴量の値、赤線はモデルの予測値$\widehat{y}$に相当する。　
Mは、書籍内ではモデルの次数を表すものとなっているが、ここでは「Mが大きいほどモデルの複雑性が高い」ぐらいに理解しておけばよい。　

ここで、訓練誤差と汎化誤差に着目して各モデルを見てみる。

訓練誤差: 学習データと予測値の誤差。つまり青丸と赤線の距離。
汎化誤差: 予測値と真の値の誤差。つまり赤線と緑線の距離。

M=0やM=1の場合、モデルの表現力が不十分で、訓練誤差、汎化誤差が共に大きい状態になっている。
M=3の場合が最も真のモデルに近いモデルが生成されており、汎化誤差が最も小さくなっている。
M=9の場合、訓練データにほぼ完全に適合したモデルが生成されている。訓練誤差はほぼ0に近い一方で、M=3の場合と比べると汎化誤差が大きくなっている。

前項d.で述べたように、教師あり学習では目的関数を改善するように学習を進める。
そのため、目的関数がloglossの場合、学習データとの誤差がなるべく小さくなる、可能な限り青丸の近くを通るようなモデルを学習しようとする。
M=9の場合のように、学習データの量に対してモデルの表現力が高すぎると、学習データのノイズに対しても訓練誤算を小さくすることができてしまうため、真のモデルと乖離したモデルが生成されてしまう場合がある。

この場合のように、訓練誤差は小さいが、汎化誤差が大きくなっている状態のことを 過学習(overfit) という。
機械学習の目的は未知のデータを正しく予測することなので、汎化誤差が小さいことが望ましい状態である。そのため、過学習が起こらないように注意する必要がある。

正則化

過学習を抑制するための手段の一つに正則化がある。
前節のM=9の場合のように、モデルが学習データに過剰に適合している状態では、訓練誤差を小さくするためにモデルパラメータ$(w_0, w_1, w_2, ...)$が大きい状態になる。
正則化は、目的関数に、「各モデルパラメータ$(w_0, w_1, w_2, ...)$の値が過剰に大きくなっていない方が良い」という観点を加えることで、過学習を抑制しようという発想のものである。

正則化項 $R(\mathbf{w})$を導入して、次のように目的関数$\Phi(\mathbf{w})$を定義する。

\Phi(\mathbf{w})　= logloss(\mathbf{w}) + \lambda R(\mathbf{w})

$\mathbf{w}$はモデルパラメータのベクトルで、$\mathbf{w} = (w_0, w_1, w_2, ...)^{\top}$である。
$\lambda$は、正則化項の重みを調整する定数で、ハイパーパラメータと呼ばれるものである。これについては後の項で扱う。

正則化には、L1正則化と、L2正則化がありそれぞ正則化項は次の式で表される。

L1正則化の場合、

R(\mathbf{w}) = \sum_{j=0}^M |w_j|

L2正則化の場合、

R(\mathbf{w}) = \sum_{j=0}^M w_j^2

いずれについてもモデルパラメータが小さいほど小さくなるものになっている。
L1正則化は特定のモデルパラメータを0にしやすい性質があるため、特徴選択(予測に寄与しない特徴量を削ること)に用いられることも多い。

f. モデルパラメータの最適化

最適化には様々な方法があるが、ここでは最も単純な例として 勾配降下法(最急降下法) を紹介する。
過学習を抑制するため、前項e.で説明したL2正則化を採用した場合、目的関数$\Phi(\mathbf{w})$は次の式で表される。

\begin{eqnarray}
\Phi(\mathbf{w}) &=& logloss(\mathbf{w}) + \lambda R(\mathbf{w}) \\
&=& -\frac{1}{N}  \sum_{i=1}^N (y_i log \frac{1}{1 + e^{-(w_0 + \sum_{j=1}^M w_j x_{ij})}} + (1 - y_i)log(1 - \frac{1}{1 + e^{-(w_0 + \sum_{j=1}^M w_j x_{ij})}})) + \lambda \sum_{j=0}^M w_j^2
\end{eqnarray}

ここで、$x_{ij}$、$y_i$は学習データから与えられる定数で、パラメータはモデルパラメータである$(w_0, w_1, w_2, ...)$であることに注意する。
この目的関数$\Phi(\mathbf{w})$が最小になるような、$\mathbf{w}$を求める。

高校数学までは、パラメータは基本$x$の方だったため、係数に見える$\mathbf{w}$側がパラメータであるというところは困惑するところかもしれない... ちなみに筆者はかなり混乱しました。

勾配降下法

$\mathbf{w}$に初期値を与え、$\Phi(\mathbf{w})$を小さくする方向に反復して$\mathbf{w}$を更新することで$\Phi(\mathbf{w})$を最小化するというのが最適化の基本的な考え方になる。
$\mathbf{w}$は、多次元のベクトルなので、$\Phi(\mathbf{w})$は多次元のスカラー場になるが、この関数が小さくなる方向を求める際に 勾配(gradient) を利用するものを、勾配降下法という。
勾配³は、対象の関数の値の変化量が最も大きい方向を向くベクトルで、その成分は関数を各次元方向に偏微分したものになる。

\nabla \Phi(\mathbf{w}) = (\frac{\partial \Phi(\mathbf{w})}{\partial w_0}, \frac{\partial \Phi(\mathbf{w})}{\partial w_1}, \frac{\partial \Phi(\mathbf{w})}{\partial w_2}, ...)^{\top}

これを用いて次のような更新式でモデルパラメータを更新することを繰り返す。

\mathbf{w^{(k+1)}} = \mathbf{w^{(k)}} - \eta \nabla \Phi(\mathbf{w})

この更新式の$j$番目の成分に着目すると、

w_j^{(k+1)} = w_j^{(k)} - \eta \frac{\partial \Phi(\mathbf{w})}{\partial w_j}

と表される。

上記において、$\mathbf{w^{(k+1)}}$、$\mathbf{w^{(k)}}$は、それぞれ、k+1回目、k回目の更新が終わった時点でのモデルパラメータのベクトル。
$\eta$は 学習率と呼ばれるもので、1回の反復でどの程度大きくモデルパラメータを更新するかを定めるハイパーパラメーターである。

下図⁴は勾配降下法によるパラメータの更新の様子を図示したものになっている。
簡単のために1次元ではあるが、横軸wはモデルパラメータ $\mathbf{w}$に相当し、縦軸f(w)は目的関数$\Phi(\mathbf{w})$に相当するものである。

$\mathbf{w}$は実際には多次元ベクトルなので、このような平面図では表現しきれない。
f(w)についても実際の$\Phi(\mathbf{w})$ の外形を示しているものではないので注意。

$w$の初期値が$w=w^{(0)}$の黒丸の点で与えられたとき、パラメータwは$w=w^{(1)}, w^{(2)}, w^{(3)}$と順次更新されていく。
更新の大きさは黒矢印で示した通り、$-\eta\frac{\partial f(w)}{\partial w}$で表される。つまり、接線の傾きが大きいところほど更新の幅は大きくなり、方向は必ず接線の下り方向になる。
よって、適切な初期値と学習率$\eta$が設定できていれば、最適解に近づくにつれて更新幅が小さくなり、最終的には最適解に収束していく。

一方で、図中のf(w)のように多峰な関数だと、最適解に収束せず局所解に落ちてしまう場合がある。
図中の$w_{'}^{(0)}$のような初期値が与えられた場合、接線の下り方向は局所解の方向なので、最終的に収束するのは局所解の方になる。

学習率$\eta$も更新の幅に影響を与えるものである。これは、大きすぎると探索が発散してしまうが、小さすぎても探索にかかる時間が増加するため、適度な値を設定する必要がある。
目的関数の最適化もこういった様々な難しさがあるため、解法や、初期値の決め方、学習率の調整の仕方など含め様々な方法が提案されている。
この記事ではそれらの紹介はしないが、興味があれば調べてみると良い。というか筆者の守備範囲を超えているので他の記事に譲らせてください。

ここで、目的関数をL2正則化付きのloglossとしたときの更新式を計算してみる。
勾配ベクトルのj番目の成分 $\frac{\partial \Phi(\mathbf{w})}{\partial w_j}$ は次のように計算できる。

\begin{eqnarray}
\frac{\partial \Phi(\mathbf{w})}{\partial w_j} &=& -\frac{1}{N} \sum_{i=1}^N \frac{\partial}{\partial w_j} \{ y_i log \frac{1}{1 + e^{-(w_0 + \sum_{j=1}^M w_j x_{ij})}} + (1 - y_i)log(1 - \frac{1}{1 + e^{-(w_0 + \sum_{j=1}^M w_j x_{ij})}}) \} + \lambda  \sum_{k=0}^M \frac{\partial w_k^2}{\partial w_j} \\
&=& -\frac{1}{N} \sum_{i=1}^N \frac{\partial}{\partial w_j} \{ y_i log \frac{1}{1 + e^{-(w_0 + \sum_{j=1}^M w_j x_{ij})}} + (1 - y_i)log(1 - \frac{1}{1 + e^{-(w_0 + \sum_{j=1}^M w_j x_{ij})}}) \} + 2 \lambda w_j
\end{eqnarray}

ここで、計算を簡単にするために、

\begin{eqnarray}
\theta_i &=& w_0 + \sum_{j=1}^M w_j x_{ij} \\
\widehat{y_i} &=& \frac{1}{1 + e^{-\theta_i}} 
\end{eqnarray}

とおくと、上の式は

\frac{\partial \Phi(\mathbf{w})}{\partial w_j} = -\frac{1}{N} \sum_{i=1}^N \frac{\partial}{\partial w_j} \{ y_i log \widehat{y_i} + (1 - y_i) log (1 - \widehat{y_i}) \} + 2 \lambda w_j

ここでさらに、

L(\widehat{y_i}) = y_ilog\widehat{y_i} + (1 - y_i)log(1 - \widehat{y_i})

とおいたとき、目的関数は次のように表される。

\Phi(\mathbf{w}) = -\frac{1}{N} \sum_{i=1}^N L(\widehat{y_i}) + \lambda \sum_{j=0}^M w_j^2

このとき、合成関数の微分により、

\begin{eqnarray}
\frac{\partial \Phi(\mathbf{w})}{\partial w_j} &=& -\frac{1}{N} \sum_{i=1}^N \frac{\partial L(\widehat{y_i})}{\partial w_j} + 2\lambda w_j \\
&=& -\frac{1}{N} \sum_{i=1}^N （\frac{\partial L(\widehat{y_i})}{\partial \widehat{y_i}} \cdot \frac{\partial \widehat{y_i}}{\partial \theta_i} \cdot \frac{\partial \theta_i}{\partial w_j}） + 2 \lambda w_j
\end{eqnarray}

となる。

各偏微分はそれぞれ、

\begin{eqnarray}
\frac{\partial L(\widehat{y_i})}{\partial \widehat{y_i}} &=& \frac{y_i}{\widehat{y_i}} - \frac{1 - y_i}{1 - \widehat{y_i}} \\
\frac{\partial \widehat{y_i}}{\partial \theta_i} &=& \frac{e^{-\theta_i}}{(1 + e^{-\theta_i})^2} \\
\frac{\partial \theta_i}{\partial w_j} &=& x_{ij} (j \neq 0の場合) \\
\frac{\partial \theta_i}{\partial w_0} &=& 1
\end{eqnarray}

と計算でき、$\frac{\partial L(\widehat{y_i})}{\partial \widehat{y_i}} \cdot \frac{\partial \widehat{y_i}}{\partial \theta_i}$の値は、

\begin{eqnarray}
\frac{\partial L(\widehat{y_i})}{\partial \widehat{y_i}} \cdot \frac{\partial \widehat{y_i}}{\partial \theta_i} &=& \{y_i(1 + e^{-\theta_i}) - \frac{(1 - y_i)(1 + e^{-\theta_i})}{e^{-\theta_i}} \} \cdot \frac{e^{-\theta_i}}{(1 + e^{-\theta_i})^2} \\
&=& \frac{y_ie^{-\theta_i}}{1 + e^{-\theta_i}} - \frac{1 - y_i}{1 + e^{-\theta_i}} \\
&=& \frac{(1 + e^{-\theta_i})y_i - 1}{1 + e^{-\theta_i}} \\
&=& y_i - \frac{1}{1 + e^{-\theta_i}} \\
&=& y_i - \widehat{y_i}
\end{eqnarray}

となる。よって、

ここまでの計算結果を代入すると、

\begin{eqnarray}
\frac{\partial \Phi(\mathbf{w})}{\partial w_j} &=& \frac{1}{N} \sum_{i=1}^N (\widehat{y_i} - y_i)x_{ij} + 2 \lambda w_j (j \neq 0の場合) \\
\frac{\partial \Phi(\mathbf{w})}{\partial w_0} &=& \frac{1}{N} \sum_{i=1}^N (\widehat{y_i} - y_i) + 2 \lambda w_0
\end{eqnarray}

と求まる。これを用いてモデルパラメータの更新を行う。

g. ハイパーパラメータ

学習によって、最適化されていくモデルパラメータと異なり、予め決めておかないモデルの形や、学習の進め方などのパラメータをハイパーパラメータという。
ここまでで登場した、

正則化項の重み$\lambda$
学習時のモデルパラメータ更新の最大反復回数
学習率

などがハイパーパラメータに相当する。
これらは最終的なモデルの性能に影響を与えるので、モデルの作成とバリデーションを繰り返して最適なものを決める必要がある。

これらを決めるのに、最も単純な方法はグリッドサーチと呼ばれるもので、ハイパーパラメータの値の組み合わせを適当な規則に則って作成し、それぞれについて汎化誤差を求め、最もスコアがよくなったハイパーパラメータを選ぶという方法である。ハイパーパラメータは相互作用があるものがあるので、組み合わせで探索する。

ロジスティック回帰は非常に単純なモデルなので、モデルの学習にかかる時間も短く、ハイパーパラメータの数も少ないため、グリッドサーチのような単純な方法でも比較的良いハイパーパラメータを求めやすいが、ニューラルネットワークなど、膨大なハイパーパラメータを持つモデルもあり、この調整に関しても様々な方法が提案されている。これらについてこの記事では扱わないが、興味があれば調べてみると良い。

これも筆者の守備範囲を超えているので他の記事に譲らせてください。
複雑なモデルではもう少し探索の仕方を工夫する必要があり、oputunaなどを使って効率的に求めたりするようです。
他にもGPUを使って1回のモデル作成にかかる時間を短縮したりする必要があるので、ある程度札束で殴るということが必要になる印象です。

h. バリデーションとアーリーストップ

項f.の工程で、モデルは教師データに対する目的関数の値を可能な限り小さくするようなモデルパラメータを学習した。
機械学習の本来の目的は、未知の入力データに対して結果を予測することなので、学習したモデルが未知のデータに対しどの程度の予測性能を持っているかを評価する必要がある。
この工程のことを バリデーション という。

バリデーションを行う方法はいくつかあるが、最も単純なものは、正解ラベル付きのデータセットのうちの一部をバリデーションデータとして取り分け、残りのデータのみを教師データとして学習に用いるホールドアウトと呼ばれる方法である。(項a.の図を参照)
これらを使って教師データに対する評価値である、訓練誤差と、バリデーションデータに対する評価値である汎化誤差を見比べることで主に、

汎用的なデータに対するモデルの予測性能が要求に対し十分な水準を満たしているか
モデルが教師データを十分に学習できているか。
過学習が起きていないか

などを確認する。

前項f.で説明したように、モデルの学習はモデルパラメータを反復して更新することにより行われるので、各反復時のモデルに対する訓練誤差と、汎化誤差をプロットできる。
学習がうまく進んでモデルの性能が十分な場合には、下図のように訓練誤差、汎化誤差ともに小さい値に収束していく。

汎化誤差の収束値を見ることでモデルの性能が要求に対して十分かどうか確認する。

この例では、50回の反復を行っているが、10回未満の段階では、訓練誤差、汎化誤差ともに大きい状態で、反復ごとに評価値が改善される幅も大きい。
この10回未満の段階のような、訓練誤差、汎化誤差が大きいままの状態のことを 未学習(アンダーフィット) という。
これを避けるためには、プロットを見て、まだ評価値の改善が大きい段階でモデルパラメータの更新を打ち切ってしまっていないかどうか確認すると良い。

別の例として、下図のようになることもある。

この例では、訓練誤差は減少していっているが、汎化誤差は12回目の反復付近で上がり始めている。
この関係性が見られたときは、過学習(オーバーフィット) が発生していると判断できる。

このような場合は、程度を見つつ正則化項の重みを調整したり、アーリーストップを設定して、汎化誤差が上がり始めた時点でモデルパラメータの更新を打ち切るなどの対応が考えられる。
アーリーストップではtoleranceという閾値を設け、$i$回目の反復時の汎化誤差$V_i$と$i+1$回目の反復時の汎化誤差$V_{i+1}$の差

|V_{i + 1} - V_i| < tolerance

となった場合にモデルパラメータの更新を打ち切る。
これにより学習にかかる時間も短縮でき、過学習も抑制することができる。

i. クロスバリデーション

前項h.ではバリデーションのためにホールドアウト法を説明したが、一般には クロスバリデーション という方法を使うことが多い。
この方法では、下図のように、正解ラベル付きデータセットをK個に分割して、分割したうちの一つをバリデーションデータ、残りを教師データとする操作を分割数分順繰りに繰り返す。

この方法では、図のようにK個の異なるモデルとそれらそれぞれに対し評価値が算出される。
活用の際は、これらの評価値を総合的にみながらハイパーパラメータを調整し、改めて全データを用いてモデル(本番)を1つ作成する方法と、
各モデルをそのまま使って予測値をK個算出し、それらの平均を取る等して最終的な予測値を決定するバギングと呼ばれる方法がある。

j. scikit-learnにおけるLogisticRegressionモデル

本記事で紹介した内容はほんの一部であるため、全ての対応を取れるわけではないが、
最後に本記事で登場した内容とscikit-learnにおけるLogistic RegressionモデルのAPIとの対応について触れておく。

scikit-learn v1.2 LogisticRegression

penalty: 正則化の種類。本記事で紹介したL1, L2の他にelastic netも選択できる。
C: 正則化項の重み $\lambda$の逆数。(つまり$C=\frac{1}{\lambda}$)
tol: アーリーストップの基準値$\delta$
max_iter: モデルパラメータ更新の最大反復回数。
solver: モデルパラメータ最適化の方法。本記事では勾配降下法を紹介したが、scikit-learnで採用されているのはもう少し工夫がされているもの。

主に、ハイパーパラメータに相当するものがコンストラクタの引数になっていることがわかる。

終わりに

機械学習の学習フェーズをロジスティック回帰を例に数式にまで踏み込んで書いてみました。
近年は便利なライブラリがたくさんあるので、中身の動きを知らなくてもなんとなく実装できてしまうことが多いですが、中ではこういうことが起こっているのかというイメージを少しでも持っていただけると幸いです。

この記事中では、あまりコンペについては触れませんでしたが、実は社内でのKaggleで勝つデータ分析の技術 4章の輪読会向けに作成したものです。
この記事では本書の内容を網羅していないので、より詳しく学びたい方はこちらも合わせて読んでいただくのが良いかと思います。

長い記事でしたが、読んでいただきありがとうございました。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up