LSTMなどの深層学習モデルにおける特徴量選択
LSTMなどの深層学習モデルでは、特徴量をとにかくできるだけ多く作成し、特徴量選択はモデルに任せるというやり方か、手動で特徴量の削除をするやり方のどちらが適切なのでしょうか。また、手動で特徴量選択を行う場合、その選択基準はどのようなベンチマークが一般的ですか?
LSTMなどの深層学習モデルでは、特徴量をとにかくできるだけ多く作成し、特徴量選択はモデルに任せるというやり方か、手動で特徴量の削除をするやり方のどちらが適切なのでしょうか。また、手動で特徴量選択を行う場合、その選択基準はどのようなベンチマークが一般的ですか?
ちょっと機械学習を誤解なさっているのかなと思います。
機械学習に「正解」はほぼないです。これは絶対「不正解」はあります。過学習を信じてしまうとか。
「不正解」はさけ、「正解」はないので、ケースバイケースで求める答え(大抵は誤差最小化か分かりやすいモデルの説明)を試行錯誤を繰り返すものです。
LSTMなどの深層学習モデルでは、特徴量をとにかくできるだけ多く作成し、特徴量選択はモデルに任せるというやり方か、手動で特徴量の削除をするやり方のどちらが適切なのでしょうか。
「適切」はケースバイケースです。が一般論としては
深層学習以外の従来の機械学習:特徴量を職人的な技で人間が追加削除をする必要があった
深層学習:特徴量も自動で学習してくれる
というものだと思います。ただ自動で学習したからといってそれが最高精度になることを保証するものではありません。
また、手動で特徴量選択を行う場合、その選択基準はどのようなベンチマークが一般的ですか?
ここはベンチマークではなくて、評価指標かなと思います。
LSTMとRNNとCNNとアルゴリズムの性能評価ならばベンチマークになるのかなと思いますが、それも
LSTMとして
株価を予測する性能を評価したいのか、週次の需要予測のような値を予測する性能を評価したいのかでベンチマークも変わってきます。
個別の機械学習テーマでLSTMを用いて、特徴量の取捨選択を評価したいならばベンチマークではなく精度指標をどれにするかが必要となってきます。