ロジスティック回帰モデル
分類問題
- 入力された数値から、そのデータが所属するクラスを分類する問題
- 入力としてm次元のベクトルを使い、0か1(そのクラスに所属するかどうか)を出力する。
- 例)タイタニックデータ
- 入力:乗客のデータ(年齢、性別、社会階級)
- 出力:1または0(その乗客が生存したか否か)
- 例)タイタニックデータ
- 分類問題を解くモデルの1つとしてロジスティック回帰モデルがある。
ロジスティック回帰モデル
- 入力した数値とパラメータの線形結合(線形回帰と同様)をシグモイド関数(後述)の入力とする。
- 入力されたデータに対し、そのクラスに所属する確率が出力される。
シグモイド関数
-
シグモイド関数の出力値が0.5以上であればクラスに所属する、それ以下であればクラスに所属しないと判断される。
最尤推定
-
尤度とはあるデータを得たときに、分布のパラメータがどの程度ありえそうか(尤もらしいか)を表現したもの。そして最も適切な尤度を求めることを最尤推定という。
- 例)表の出る確率が50%ではないコインでコイントスを行った結果、表が4回裏が1回出た。このコインの表が出る確率は?
- コイントスを行って得たデータをもとに、コインが表になる確率を最尤推定を使って求める問題。
- 例)表の出る確率が50%ではないコインでコイントスを行った結果、表が4回裏が1回出た。このコインの表が出る確率は?
-
パラメータθに従う確率分布の密度関数を、確率変数xを定数、θを変数として置き換えた関数を尤度関数と呼ぶ。この尤度関数を最大化するθを求めることで最尤推定を行う。
-
尤度関数をそのままの形で最大化しようとすると、0以上1以下の掛け算の連続となり値が小さくなり続ける、などのもんだいが発生する。そのため対数尤度関数の最大化を行う方法をとる。(対数関数は値が無限に増加し続ける単調増加関数なので、尤度関数の最大化と対数尤度関数の最大化は同じように考えることができる。)さらに平均二乗誤差の最小化と同じように考えるため、対数尤度関数にマイナスをかけて最小化問題として解くのが一般的。
勾配降下法
-
平均二乗誤差の微分が0になる値は解析で求めることができるが、対数尤度関数の微分が0になる値を解析的に求めることは困難。そこで勾配降下法を使う。
-
勾配降下法とは反復学習によりパラメータを少しづつ最適な方向に近づけるアプローチである。現在のパラメータから尤度関数の微分と学習率の積を引いた値を新しいパラメータとする。
-
勾配降下法はパラメータを更新するために学習データすべてのデータに対する和を求める必要がある。そのためデータ数が多くなるとメモリ不足や計算時間の増加などの問題が発生する。この問題を解決する方法として確率的勾配降下法がある。
#####確率的勾配降下法(SGD)
- 通常の勾配降下法と違いデータを1つずつランダムに選びパラメータを更新する。
- 勾配降下法と比べパラメータ更新に必要な計算量が少ないので、効率的に最適なパラメータを求めることができる。
- 欠点として外れ値の影響を受けやすいという点がある。
エポック
- すべての学習データで1回づつパラメータを更新するだけで学習が終わることは稀である。そのためすべての学習データに対し複数回学習する必要がある。このとき学習データの数に対する学習回数をエポックと呼ぶ。エポックごとに学習データをシャッフルして学習の偏りを減らしたり、エポックごとの予測精度を比較することで過学習や未学習の判断ができる。
ミニバッチ勾配降下法
- 学習データをm個ずつの塊(ミニバッチ)にわけて学習を行う方法。
- 確率的勾配降下法の欠点を補うことができる、確率的勾配降下法より計算に必要な資源を有効活用できるなどの利点がある。
- ミニバッチのサイズを1にすると確率的勾配降下法と同等となる。
混同行列
- テスト用のデータ(正しい結果)とモデルの予測結果をマトリックスで表したもの。
- 例)タイタニックデータ
正解:生存 | 正解:死亡 | |
---|---|---|
予測結果:生存 | True Positive | False Positive |
予測結果:死亡 | True Negative | False Negative |
- 正解率
- 正解した数と予測した全テストデータ数の割合
- テストデータに偏りがある場合は意味をなさない指標となる場合が多い。そのため適合率と再現率という指標を使う場合が多い。
- 例)スパムメールの分類で80%がスパムメールで20%が通常のメールだった場合、すべてのメールをスパムメールだと判断するモデルの正解率は80%となってしまう。
- 適合率
- 見逃しが多くてもより正確な予測をしたい場合に高めるとよい指標。
- 例)通常のメールをスパムメールと判断されると困る場合は適合率を高めて、確実にスパムメールだと判断できるものだけを分類するようにする。 - 再現率
- 誤りが多少多くても抜け漏れを少なくしたい場合重視する指標。
- 例)命に関わる重大な病気の検診の場合、見逃す確率をなるべく減らすため再現率を高める。 - F値
- 適合率と再現率はトレードオフの関係にある。どちらもバランスよく高める場合F値を用いる。適合率と再現率の調和平均で表す。
ハンズオン
サマリーと考察
- まず初めに不要なカラムの削除、nullを中央値で埋める
- 次にチケットの価格だけで生死の予測モデルを作成
- その後、性別と階級をもとにモデルを作成
- 2つのモデルをクロスバリデーションで評価し、後者のモデルのほうが精度が高いことが判明
- 今回は年齢のnull値を中央値で埋めたが、機械学習モデルを使って適切な年齢を埋める方法もあると考えられる。
- 54行目のカテゴリーごとの生存率をみると同乗している人数によって生存率が変わるようなので、SibSpやParchを使うことでより精度が高くなると考える。