ikeid
@ikeid

Are you sure you want to delete the question?

If your question is resolved, you may close it.

Leaving a resolved question undeleted may help others!

We hope you find it useful!

学習曲線のタイミングと見方

解決したいことdownload.png

いい.png
一枚目の画像がハイパーパラメータをチューニングした後の学習曲線で、二枚目がする前の曲線です。チューニングする前を見るとテストデータとトレーニングデータに乖離があるので過学習気味と言えるのでしょうか?それともテストスコアが横ばいなので学習不足なのでしょうか?
またチューニング後は完全に学習不足だと思いますが、ここでとれる策は特徴量を増やすのとモデルの複雑さを上げると見ましたが、今lightbgmを用いているのでこれ以上複雑度上げるとなるとスタッキングなどになってくるのでしょうか?
よろしくお願いします。

0

1Answer

そもそもなんですけど,これはどのぐらいの値の分類/回帰をやるモデルですか?また,目標の性能はどのぐらいですか?
2値分類であれば(特にTest Scoreにおいて)Random Choiseと変わらない性能になっている1と思うのでチューニング前後で過学習から性能不足になったと考えました.ikeidさんの考えで当たっていると考えます.

これ以上複雑度上げるとなるとスタッキングなどになってくるのでしょうか?

どのモデルもRandom Choiseと同じスコアになるのであればスタッキング等のアンサンブル学習に展開しても意味ないと思います.

  1. 01の2値分類の場合にデータセット0と1の比が1:1だった場合,ランダムに選んだ場合のScoreと一緒です.例え3分類だとしてもデータセットの3種の比率が49:49:2だったらScoreは0.5近くなります.データセットの比率も併せて教えていただけると幸いです.

0Like

Comments

  1. @ikeid

    Questioner

    3クラス分類でデータ数は11000件弱です。制作に時間制限はない(個人の趣味なので)ので精度は1でも高いほうが嬉しいですが、強いて言えば6割は越えたいです。7割いけたら最高だなくらいの感覚でやっています。

    ランダムよりは高いですが、lightgbm、ランダムフォレスト、ロジスティック、SVMとどれも同じような性能なのでスタッキングはあまり意味なさそうですね。そうなるとやはり特徴量いじくるしかないのでしょうか?
  2. ランダムより高いのであればensembleやる意味はあると思います。またデータの特徴量を正規化や正則化などしておくのをはじめ,意味のある情報へ変換したりといじくるのは必要に思います。

Your answer might help someone💌