@marcopagot (Asuka)posted at 2021-11-15

自前データで分析を行いたい場合、trainデータとtestデータはどのように分けたらよいか

Q&A

解決したいこと

現状）
閲覧頂きありがとうございます。python初学者です。
現在、suumoの不動産データを用いて賃貸物件の家賃予測をしようとしています。
suumoからデータをスクレイピングをしてレコード数61,932 カラム数12のcsvデータを作成しました。
いざ、自分でモデルを組んで分析しようとしているのですが
コンペ等と異なり、自分でtrain、testデータを作成しなければならないと思っております。
train数とtest数はどのように分割すれば宜しいでしょうか。

勝手に、train:test = 8:2 = 49,545:12,387　に分けて
testデータからは目的変数である['fee']カラムを抜こうかな
などと思っています。

また、分析の仕方としてこのような考えであっていますでしょうか。
最終的にどのようにモデルを評価するのがbetterなのかまで
わかる方がいらっしゃいましたらご教示ください。
何卒宜しくお願い致します。

0 likes

1Answer

@aokikenichi posted at 2021-11-22

train, testの分割については
scikit-learnでデータを訓練用とテスト用に分割するtrain_test_split
が参考になるかと思います。train/testの割合に正解はないですがこの関数を使うのならばデフォルトは0.75/0.25ですね。教科書やネットの記事だと0.8/0.2もよく見かけます。

学習時も単にtrainデータで１回学習するだけではなく、クロスバリデーション
scikit-learn を用いた交差検証（Cross-validation）とハイパーパラメータのチューニング（grid search）
例えばこの記事の方法などが一般的かと思います。

0Like

Are you sure you want to delete the question?

自前データで分析を行いたい場合、trainデータとtestデータはどのように分けたらよいか

解決したいこと

1Answer

Your answer might help someone💌