More than 1 year has passed since last update.

【機械学習】ロジスティック回帰(Logistics Regression)の関連用語およびsklearnによる二値分類の実践

Posted at 2022-07-03

はじめに

ロジスティック回帰の関連用語が多くて混乱したので、自分用に整理しました。

モデル評価における関連用語をまとめました。

クラス分類の予測結果を4つの種類に分けたものです。

https://medium.com/@awabmohammedomer/confusion-matrix-b504b8f8e1d1

正しく予測されたサンプルの割合(TP+TN/TP+FP+FN+TN)を表す評価指標です。
すべてのクラスが同様に重要なときや各クラスのサンプル数に大きな偏りがないときに使います。

陽性と予測した中で結果も陽性だったサンプルの割合(TP/TP+FP)を表す評価指標です。
誤認識や誤検知(FP)をなるべく抑えたいときに使います。

結果が陽性だった中で予測も陽性だったサンプルの割合(TP/TP+FN)を表す評価指標です。
見逃し(FN)をなるべく抑えたいときに使います。

AccuracyとRecallの調和平均(2precisionrecall/(precision+recall))を表す評価指標です。
AccuracyとRecallが同等に重要なとき、FPとFNの両方とも評価したいとき、不均衡データのモデル精度を評価したいときに使います。

ある事象の起こる確率pと起こらない確率1-pとの比p/(1-p)を表します。

2つの群におけるオッズの比を表します。
ロジスティック回帰においては、変数が1増加した時に「何倍継続されやすくなるか」を表します。

変数が1変化したときに確率が変動する程度を表します。

モデルの分類性能を示した曲線です。
TPR（True Positive rate）とFPR(False Positive rate)を計算し、縦軸にTPF、横軸にFPFをとった平面にプロットして描画します。

ROC曲線のグラフの下の部分の面積を表します。
AUCは0から1までの値をとり、値が1に近いほど分類性能が高いことを示します。

sklearnのLogisticRegressionを学習データに適用します。

from sklearn.linear_model import LogisticRegression

log_model = LogisticRegression()
log_model.fit(scaled_X_train,y_train)

モデル評価のメソッドをいろいろインポートして適用してみます。

from sklearn.metrics import accuracy_score,confusion_matrix,classification_report,plot_confusion_matrix

y_pred = log_model.predict(scaled_X_test)

AccuracyやConfusion Matrixを簡単に出すことができます。

また、Accuracyだけではなく、PrecisionやRecallなどもまとめて出すこともできます。

ROC曲線も描画することができます。