marcopagot
@marcopagot (Asuka)

Are you sure you want to delete the question?

Leaving a resolved question undeleted may help others!

DataFrameとSeriesをくっつけて、新しいDataFrameを作成したいです。

解決したいこと

別々のdfのカラム同士をくっつけて、新しいdfを作成したいです。
※凄く簡単なはずなのですが、調べても出てこないです、、、

概要)
機械学習初学者です。現在、NISHIKA主催の「中古マンション価格予測コンペ」に参加しております。
一通り作業が終了し、予測データを提出したところ、NISHIKAから、下記errorを通告され提出出来ずにいます。
NISHIKAkからは「提出名のカラム名は'ID,取引価格(総額)_log'にする必要があります。」
とエラーを忠告されています。

現状

testデータにある'ID'カラムと、作成した予測データ'取引価格(総額)_log'を合体させて提出したいです。

testデータ

    ID  種類  地域  市区町村コード   都道府県名 市区町村名 地区名   最寄駅名称  最寄駅距離 間取り   ... 今後の利用目的   前面道路方位   前面道路種類   前面道路幅員  都市計画    建ぺい率(%)   容積率(%)  取引時点    改装  取引の事情等
0   1000114 中古マンション等    NaN 1101    北海道   札幌市中央区  大通西   西18丁目 2   LDK    ... 住宅  NaN NaN NaN 商業地域    80.0    400.0   2020年第4四半期  未改装   NaN
1   1000116 中古マンション等    NaN 1101    北海道   札幌市中央区  大通西   西18丁目 2   LDK    ... その他   NaN NaN NaN 商業地域    80.0    400.0   2020年第3四半期  未改装   NaN
2   1000117 中古マンション等    NaN 1101    北海道   札幌市中央区  大通西   西18丁目 2   LDK    ... 住宅  NaN NaN NaN 商業地域    80.0    400.0   2020年第3四半期  改装済   NaN
3   1000118 中古マンション等    NaN 1101    北海道   札幌市中央区  大通西   西18丁目 3   LDK    ... 住宅  NaN NaN NaN 商業地域    80.0    400.0   2020年第3四半期  改装済   NaN
4   1000119 中古マンション等    NaN 1101    北海道   札幌市中央区  大通西   西18丁目 3     ... 住宅  NaN NaN NaN 商業地域    80.0    400.0   2020年第3四半期  未改装   NaN
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
23199   47012519    中古マンション等    NaN 47208   沖縄県   浦添市   宮城  NaN NaN LDK    ... 住宅  NaN NaN NaN 第1種中高層住居専用地域    60.0    200.0   2020年第3四半期  未改装   NaN
23200   47014760    中古マンション等    NaN 47211   沖縄県   沖縄市   安慶田   NaN NaN LDK  ... 住宅  NaN NaN NaN 第1種中高層住居専用地域    60.0    200.0   2020年第3四半期  改装済   NaN
23201   47014956    中古マンション等    NaN 47211   沖縄県   沖縄市   大里  NaN NaN LDK    ... 住宅  NaN NaN NaN 第1種低層住居専用地域   50.0    100.0   2020年第3四半期  NaN NaN
23202   47015505    中古マンション等    NaN 47211   沖縄県   沖縄市   比屋根   NaN NaN LDK    ... 住宅  NaN NaN NaN 市街化区域及び市街化調整区域外の都市計画区域  70.0    200.0   2020年第3四半期  未改装   NaN
23203   47015950    中古マンション等    NaN 47211   沖縄県   沖縄市   与儀  NaN NaN LDK    ... 住宅  NaN NaN NaN 第1種中高層住居専用地域    60.0    200.0   2020年第3四半期  改装済   NaN
23204 rows × 27 columns

作成したtest_pred(取引価格(総額)_log)

    取引価格総額_log
0   6.316163
1   6.350469
2   6.357835
3   6.673198
4   6.354858
... ...
23199   6.977357
23200   6.300990
23201   6.311770
23202   6.294391
23203   7.045070
23204 rows × 1 columns

tesデータはDataFrame型、test_predはSeries型となっています。
取引価格(総額)_logカラムは、testデータのIDカラムの順に対応しておりますので
IDカラムの右側にそのままくっつけるだけで問題ないです。

どのようにすれば良いでしょうか。
ご教示の程宜しくお願い致します。

0

1Answer

提出名のカラム名は'ID,取引価格(総額)_log'にする必要があります。

この一文から、カンマ区切りテキストでの提出を求めていると推測されます。

この仮定のもと

ID,取引価格(総額)_log
0,6.316163
1,6.350469
....

のようなフォーマットにしてみてはいかがでしょう?

また、機械的に処理する都合上、取引価格(総額)_log取引価格(総額)_logを別物として扱っている可能性があることにも留意しましょう。

2Like

Comments

  1. @marcopagot

    Questioner

    ktz_alias様
    大変丁寧なご回答ありがとうございます。
    二つのデータフレームから'ID'カラムと、'取引価格(総額)_log'カラムを抽出して
    合体させる方法はありますでしょうか。
  2. @marcopagot

    Questioner

    ktz_alias様
    度々、質問を更新してしまい申し訳ありません。
    ktz様のおっしゃっていることはわかるのですが、そもそも合体させて新しいdfを作る方法が分かりません、、、
    IDカラムと、取引価格(総額)_logをくっつけて新しくdfを作るにはどのようにコーディングしたら
    宜しいでしょうか。
    ご教示の程宜しくお願いします。
  3. @marcopagot

    Questioner

    ktz様
    両方とも、カラム数1個のdfにしてans = pd.concat([id_df, Z], axis=1)
    でいけました😭
    お騒がせしました🙇‍♂️

Your answer might help someone💌