marcopagot
@marcopagot (Asuka)

Are you sure you want to delete the question?

If your question is resolved, you may close it.

Leaving a resolved question undeleted may help others!

We hope you find it useful!

自前データで分析を行いたい場合、trainデータとtestデータはどのように分けたらよいか

解決したいこと

自前データで分析を行いたい場合、trainデータとtestデータはどのように分けたらよいか

現状)
閲覧頂きありがとうございます。python初学者です。
現在、suumoの不動産データを用いて賃貸物件の家賃予測をしようとしています。
suumoからデータをスクレイピングをしてレコード数61,932 カラム数12のcsvデータを作成しました。
いざ、自分でモデルを組んで分析しようとしているのですが
コンペ等と異なり、自分でtrain、testデータを作成しなければならないと思っております。
train数とtest数はどのように分割すれば宜しいでしょうか。

勝手に、train:test = 8:2 = 49,545:12,387 に分けて
testデータからは目的変数である['fee']カラムを抜こうかな
などと思っています。

また、分析の仕方としてこのような考えであっていますでしょうか。
最終的にどのようにモデルを評価するのがbetterなのかまで
わかる方がいらっしゃいましたらご教示ください。
何卒宜しくお願い致します。

0

1Answer

train, testの分割については
scikit-learnでデータを訓練用とテスト用に分割するtrain_test_split
が参考になるかと思います。train/testの割合に正解はないですがこの関数を使うのならばデフォルトは0.75/0.25ですね。教科書やネットの記事だと0.8/0.2もよく見かけます。

学習時も単にtrainデータで1回学習するだけではなく、クロスバリデーション
scikit-learn を用いた交差検証(Cross-validation)とハイパーパラメータのチューニング(grid search)
例えばこの記事の方法などが一般的かと思います。

0Like

Your answer might help someone💌