自前データで分析を行いたい場合、trainデータとtestデータはどのように分けたらよいか
解決したいこと
自前データで分析を行いたい場合、trainデータとtestデータはどのように分けたらよいか
現状)
閲覧頂きありがとうございます。python初学者です。
現在、suumoの不動産データを用いて賃貸物件の家賃予測をしようとしています。
suumoからデータをスクレイピングをしてレコード数61,932 カラム数12のcsvデータを作成しました。
いざ、自分でモデルを組んで分析しようとしているのですが
コンペ等と異なり、自分でtrain、testデータを作成しなければならないと思っております。
train数とtest数はどのように分割すれば宜しいでしょうか。
勝手に、train:test = 8:2 = 49,545:12,387 に分けて
testデータからは目的変数である['fee']カラムを抜こうかな
などと思っています。
また、分析の仕方としてこのような考えであっていますでしょうか。
最終的にどのようにモデルを評価するのがbetterなのかまで
わかる方がいらっしゃいましたらご教示ください。
何卒宜しくお願い致します。