概要
spark mllibの
- SVM
- LogisticRegression
- NaiveBayes
の精度測定を、
- news20
- rcv1
に対して実施。その結果を記載する。
各アルゴリズムのパラメータ設定は
Svm
- L2正則化のみ
- numIteration = 1000
- SGD, miniBatchFraction = 1.0
- regParam=c= 1.0* 10^-3 〜 1000まで測定
LogisticRegression (LR)
- L2正則化のみ
- numIteration = 1000
- SGD, miniBatchFraction = 1.0
- regParam=c= 1.0* 10^-3 〜 10まで測定
NaiveBayes (NB)
- lambda=1.0*10^-3 〜 1000
測定結果
news20 NB
lambda | 正例F1値 | 正解率 |
---|---|---|
0.0001 | 0.975 | 0.975 |
0.001 | 0.974 | 0.974 |
0.01 | 0.973 | 0.972 |
0.1 | 0.967 | 0.967 |
1.0 | 0.931 | 0.933 |
10.0 | 0.838 | 0.855 |
rcv1 NB
lambda | 正例F1値 | 正解率 |
---|---|---|
0.0001 | 0.925 | 0.924 |
0.001 | 0.932 | 0.932 |
0.01 | 0.937 | 0.935 |
0.1 | 0.943 | 0.941 |
1.0 | 0.941 | 0.939 |
10.0 | 0.932 | 0.931 |
rcv1 LR
regParam | 正例F1値 | 正解率 |
---|---|---|
0.0001 | 0.924 | 0.922 |
0.001 | 0.924 | 0.922 |
0.01 | 0.924 | 0.922 |
0.1 | 0.924 | 0.922 |
1.0 | 0.924 | 0.922 |
10.0 | 0.924 | 0.922 |
100.0 | NaN | 0.481 |
1000.0 | NaN | 0.481 |
rcv1 svm
regParam | 正例F1値 | 正解率 |
---|---|---|
0.0001 | 0.924 | 0.922 |
0.001 | 0.924 | 0.922 |
0.01 | 0.924 | 0.922 |
0.1 | 0.924 | 0.922 |
1.0 | 0.924 | 0.922 |
10.0 | 0.924 | 0.922 |
100.0 | NaN | 0.480 |
1000.0 | NaN | 0.480 |