0
1

More than 1 year has passed since last update.

Pythonでデータ分析をするときのフロー

Last updated at Posted at 2021-09-23

PythonでSignateやPythonのお題をゴチャゴチャといじっているときに、DataFrameの使い方がこんがらがって、大切な元データをボロボロにしてしまうことがあったので、自分なりのDataFrame(とかの変数)名の整理をしてみました。
意外と、こういうお作法を書いたものが見つからないので、自分用のメモφ(・・として。
DataPythonFlow20210923~03.drawio.png

前提
* train_data → 出題者から提供された学習用データ
* test_data → 出題者から提供された評価用データ
* submit_data → 提出用データの提出直前状態

試行錯誤用のデータにtrain01と数字を付けているのは、試行錯誤の過程でいろんなパターンを作ってみたくなったときに備えてです。(train02、train03...を作ってみるとか)→copy()を使って元データに傷を付けないようにするのがポイントです。

最終的な前処理をmerged_dataというDataFrameで行うのは、get_dummiesなどで不整合を起こさないようにするためです。

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1