More than 5 years have passed since last update.

機械学習ロジスティック回帰モデル講義課題視聴レポート (現場で潰しが効くディープラーニング講座)

Last updated at 2019-06-30Posted at 2019-06-30

入力された数値から、そのデータが所属するクラスを分類する問題
入力としてm次元のベクトルを使い、0か1(そのクラスに所属するかどうか)を出力する。
- 例)タイタニックデータ
  - 入力：乗客のデータ(年齢、性別、社会階級)
  - 出力：1または0(その乗客が生存したか否か)
分類問題を解くモデルの1つとしてロジスティック回帰モデルがある。

尤度とはあるデータを得たときに、分布のパラメータがどの程度ありえそうか(尤もらしいか)を表現したもの。そして最も適切な尤度を求めることを最尤推定という。
- 例)表の出る確率が50％ではないコインでコイントスを行った結果、表が4回裏が1回出た。このコインの表が出る確率は？
  - コイントスを行って得たデータをもとに、コインが表になる確率を最尤推定を使って求める問題。
パラメータθに従う確率分布の密度関数を、確率変数xを定数、θを変数として置き換えた関数を尤度関数と呼ぶ。この尤度関数を最大化するθを求めることで最尤推定を行う。
各学習データの分類に関しての同時確率を最大化させるパラメータを推定パラメータとする。
尤度関数をそのままの形で最大化しようとすると、0以上1以下の掛け算の連続となり値が小さくなり続ける、などのもんだいが発生する。そのため対数尤度関数の最大化を行う方法をとる。(対数関数は値が無限に増加し続ける単調増加関数なので、尤度関数の最大化と対数尤度関数の最大化は同じように考えることができる。)さらに平均二乗誤差の最小化と同じように考えるため、対数尤度関数にマイナスをかけて最小化問題として解くのが一般的。

平均二乗誤差の微分が0になる値は解析で求めることができるが、対数尤度関数の微分が0になる値を解析的に求めることは困難。そこで勾配降下法を使う。
勾配降下法とは反復学習によりパラメータを少しづつ最適な方向に近づけるアプローチである。現在のパラメータから尤度関数の微分と学習率の積を引いた値を新しいパラメータとする。
学習率はパラメータの収束のしやすさを調整するもの
勾配降下法はパラメータを更新するために学習データすべてのデータに対する和を求める必要がある。そのためデータ数が多くなるとメモリ不足や計算時間の増加などの問題が発生する。この問題を解決する方法として確率的勾配降下法がある。

すべての学習データで1回づつパラメータを更新するだけで学習が終わることは稀である。そのためすべての学習データに対し複数回学習する必要がある。このとき学習データの数に対する学習回数をエポックと呼ぶ。エポックごとに学習データをシャッフルして学習の偏りを減らしたり、エポックごとの予測精度を比較することで過学習や未学習の判断ができる。

	正解:生存	正解:死亡
予測結果:生存	True Positive	False Positive
予測結果:死亡	True Negative	False Negative

正解率
- 正解した数と予測した全テストデータ数の割合
- テストデータに偏りがある場合は意味をなさない指標となる場合が多い。そのため適合率と再現率という指標を使う場合が多い。
  - 例)スパムメールの分類で80％がスパムメールで20％が通常のメールだった場合、すべてのメールをスパムメールだと判断するモデルの正解率は80％となってしまう。
適合率
- 見逃しが多くてもより正確な予測をしたい場合に高めるとよい指標。
- 例)通常のメールをスパムメールと判断されると困る場合は適合率を高めて、確実にスパムメールだと判断できるものだけを分類するようにする。
再現率
- 誤りが多少多くても抜け漏れを少なくしたい場合重視する指標。
- 例)命に関わる重大な病気の検診の場合、見逃す確率をなるべく減らすため再現率を高める。
F値
- 適合率と再現率はトレードオフの関係にある。どちらもバランスよく高める場合F値を用いる。適合率と再現率の調和平均で表す。