機械学習のtrainデータとtestデータの扱い方について
Q&A
Closed
特徴量作成等、trainデータにした作業をtestデータにする際、効率の良い方法を模索しております。
機械学習初学者です。
現在、NISHIKAの「中古マンション価格予測」というコンペに参加しております。
trainデータに対する特徴量の作成を終えた段階で「あれ?この作業testデータにもやらなきゃでは!?」と
膨大なコーディオングをもう一度やらなければいけないことに落胆しております。
「そもそも初めからpd.concat等でtrainデータとtestデータを合体させておけばよかったのか、、、」と
思ったりもしたのですが、concatした後、いざmodelにfitさせる段階でconcatしたものを再度
trainデータとtestデータに分ける方法が分かりません、、、、
皆さんは、この問題をどのように解決していますでしょうか。
特徴量の作成をdef関数等で済ませ、それをtrainとtestに当てはめる等
色々やり方はあるのかなと思ったりもするのですが、、、、
何か、効率の良い方法があればご教示頂きたいです。
何卒よろしくお願い致します。
下記のように、私は全てtrainとtestを書いてコーディングを2倍しています、、、
train = train[train['間取り'] != 'オープンフロア']
test = test[test['間取り'] != 'オープンフロア']