More than 3 years have passed since last update.

Pythonでデータ分析をするときのフロー

Last updated at 2021-09-23Posted at 2021-09-23

PythonでSignateやPythonのお題をゴチャゴチャといじっているときに、DataFrameの使い方がこんがらがって、大切な元データをボロボロにしてしまうことがあったので、自分なりのDataFrame(とかの変数)名の整理をしてみました。
意外と、こういうお作法を書いたものが見つからないので、自分用のメモ_φ(･_･として。

前提

train_data → 出題者から提供された学習用データ
test_data → 出題者から提供された評価用データ
submit_data → 提出用データの提出直前状態

試行錯誤用のデータにtrain01と数字を付けているのは、試行錯誤の過程でいろんなパターンを作ってみたくなったときに備えてです。（train02、train03...を作ってみるとか)→copy()を使って元データに傷を付けないようにするのがポイントです。

最終的な前処理をmerged_dataというDataFrameで行うのは、get_dummiesなどで不整合を起こさないようにするためです。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up