交差検証 (クロスバリデーション)
交差検証とは,全データを訓練データ(学習用データ)とテストデータ(評価用のデータ)と分割して評価することである.
ホールドアウト検証
全データを事前に訓練データとテストデータに分割し,検証評価する.またモデルが過学習していないかを調べるために用いる.
k-分割交差検証
データをk分割してk個のブロックを作り,
1個目のブロックをテストデータ,残りを訓練データとして検証.
次に,2個目のブロックをテストデータ,残りを訓練データとして検証.
…とk通りのホールドアウト検証を行う.計算量が多くなるが,その分信頼した精度が得られる.
評価指標
正解率 (accuracy)
全データ中,どれだけ予測が当たったかの割合.
混同行列
真陽性(True Positive:TP)
偽陽性(False Positive:FP)
偽陰性(False Negative:FN)
真陰性(True Negative:TN)
適合率 (precision)
予測が正の中で,実際に正であったものの割合.
再現率 (recall)
実際に正であったものの中で,正と予測できた割合.
F値 (F measure)
適合率と再現率の調和平均.
正則化
過学習を抑制するための手法.正則化しすぎると今度は未学習に陥る場合がある.
L1正則化
一部のパラメータの値を0にすることで,特徴選択を行うことができる.ex)ラッソ回帰
L2正則化
パラメータの大きさに応じて0に近づけることで,汎化された滑らかなモデルが得られる.ex)リッジ回帰
上記両者の線形回帰手法を合わせて,Elastic Netという.
見るべき解説動画
数式を交えた解説動画
ハンズオンによる説明