@maruten

Are you sure you want to delete the question?

If your question is resolved, you may close it.

Leaving a resolved question undeleted may help others!

We hope you find it useful!

機械学習のモデル改善:特徴量探索の順番とHP固定の是非

解決したいことの概要

A. 機械学習を進めていく中で特徴量などの候補の探索の順番をどうするか
B. ハイパーパラメータ(HP)は固定すべきかどうか

A

新しい特徴量を試す際などにどのような順番で探索・評価していますか?私は以下の2つを考えています。

網羅的アプローチ

考えうる特徴量をたくさん作って片っ端から試していく方法
  

段階的アプローチ

  1. 特徴量候補をテーマごとに考えて、まず、各テーマの代表的な特徴量だけを試して、テーマごとの有効性を判断する。
    • 株価予測を例にすると、各テーマは「過去の価格比率」「時間情報」「同業他社の情報」 などで、代表的な特徴量は、同業他社の株価推移など
         
  2. 代表的な特徴量が有効だったテーマを深堀して類似の特徴量を作る
    • 同業他社の株価が有効なら同業他社の売上推移も検討してみるとか。
        

段階的アプローチの方が効率的な気がする一方で、代表として選んだ特徴量は有効でないが類似の他の特徴量は有効だったというパターンを見逃してしまうのではないかという懸念があります。

B

特徴量やモデルを一つずつ評価・比較する際、HPは固定していますか? それとも都度最適化していますか?
クロスバリデーションを行う前提で、新しい特徴量を試すたびにHP最適化(Optunaなど)を回すと、計算負荷が非常に大きくなります。

一方で、初期のデータセットで探索した良さげなHPを固定して実験を進めると、本来は有効な特徴量なのにたまたま固定HPとの相性が悪いために「無効」と判断されてしまう場合があるのではないかという懸念があります。

計算コストと評価の公平性というトレードオフを、皆さんはどのように解決していますか?

0 likes

1Answer

計算コストと評価の公平性というトレードオフを、皆さんはどのように解決していますか?

評価の公平性ではなく、制約とのトレードオフですね。多くの場合。

特徴量の有効性のランキングを正確に求めることが最重要という目的があれば評価の公平性も出てくるかと思いますが、多くの場合は

  • 予測精度の改善
  • 予測に有効な特徴量の選定
     これは「評価の公平性」の観点がなくはないですが、正確に順序を求めたいというよりも、
    • 予測結果となる原因を探す
    • 予測改善のために有効な特徴量の精度をあげる(センサー値Aが最重要に効いてるのであればより精度の良いセンサーに変えるとか)

Kaggleや、大きな市場取引で、精度の小数点以下の値を少しでも改善すれば大きな利益となる場合は、可能な限り総当たり。

1-3日くらいで回答が求められる、現状誤差10%なのを5%くらいに減らせそうで、5.1%でも4.9%でも大して変わらない、な場合はある程度の当たりをつけてその範囲で実施。

コンペなどでは前者、ビジネスでのデータ分析では多くの場合が後者かと思います。
その上で、

A

1, 2の違いがあまりよくわかりませんが、「段階的」と言っているのは2のことでしょうか?「代表として選んだ特徴量は有効でないが類似の他の特徴量は有効だったというパターンを見逃してしまうのではないかという懸念」はわかりますが、それは1のアプローチでも同じでは?

  • 業務知見からある程度可能性の高い特徴量で試す
  • その結果から既知の特徴量の組み合わせや新しい特徴量の可能性が出てくればその入手を検討し、可能なら含める
    の繰り返しを許されたリソースの範囲で実施となるのではないかと思います。

B

これもおっしゃる懸念はわかりますが、シンプルなモデルで有効でない特徴量が、HP最適化で急激に有効になることは考えにくかなと思います。小数点以下などで効いてくることはあるでしょうが。

0Like

Your answer might help someone💌