PythonでSignateやPythonのお題をゴチャゴチャといじっているときに、DataFrameの使い方がこんがらがって、大切な元データをボロボロにしてしまうことがあったので、自分なりのDataFrame(とかの変数)名の整理をしてみました。
意外と、こういうお作法を書いたものが見つからないので、自分用のメモ_φ(・_・として。
前提
- train_data → 出題者から提供された学習用データ
- test_data → 出題者から提供された評価用データ
- submit_data → 提出用データの提出直前状態
試行錯誤用のデータにtrain01と数字を付けているのは、試行錯誤の過程でいろんなパターンを作ってみたくなったときに備えてです。(train02、train03...を作ってみるとか)→copy()を使って元データに傷を付けないようにするのがポイントです。
最終的な前処理をmerged_dataというDataFrameで行うのは、get_dummiesなどで不整合を起こさないようにするためです。