お題
有名なお題であるkaggleの「House Price」問題にみんなでチャレンジしていくことになったハンズオンの内容をメモしていく企画の第4回。解説というよりはメモのまとめだったりもしますが、どこかの誰かのためになれば幸いです。4回目にもなると徐々に徐々に溜まってきたなあという印象。
- 元々のお題:https://www.kaggle.com/c/house-prices-advanced-regression-techniques
- 参考にした記事:https://yolo-kiyoshi.com/2018/12/17/post-1003/
本日の作業
欠損値の補完(今週こそここやる)
前回まででやったのは、「欠損値を含むindexを配列で取得する」というやつでした。
(そういえば「pythonって配列の概念が色々あってめんどくさいな」ていうのをぼやいた気がします)
# データ型に応じて欠損値を補完する
# floatの場合は0
# objectの場合は'NA'
na_float_cols = alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='float64'].index.tolist() #float64
na_obj_cols = alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='object'].index.tolist() #object
# float64型で欠損している場合は0を代入
for na_float_col in na_float_cols:
alldata.loc[alldata[na_float_col].isnull(),na_float_col] = 0.0
# object型で欠損している場合は'NA'を代入
for na_obj_col in na_obj_cols:
alldata.loc[alldata[na_obj_col].isnull(),na_obj_col] = 'NA'
数値型で欠損値を持つindexたち
※これの詳細は第3回でやったので割愛。
alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='float64'].index.tolist()
カテゴリカル変数で欠損値を持つindexたち
※これの詳細は第3回でやったやつとほぼ同じなので割愛。
alldata[na_col_list].dtypes[alldata[na_col_list].dtypes=='object'].index.tolist()
数値型の欠損値を代入
for na_float_col in na_float_cols:
alldata.loc[alldata[na_float_col].isnull(),na_float_col] = 0.0
今更だけど繰り返しfor in について
今更forについてちゃんと読んでみる。PHPで記述するのと変数とオブジェクトの順番が逆(言い方正しいか不明)なんですね。
- forに関する参考:https://udemy.benesse.co.jp/development/web/python-for.html
- 今回の変数:no_float_col
- 今回の繰り返し内のオブジェクト:no_float_cols
しつこいけど.isnull()
na_float_col
とalldata[na_float_col]
を出力してみる。中身をとりあえず見てみるのは、繰り返し処理の動作確認をする上での鉄板ですね。
-
na_float_col
の1回目
「欠損値が含まれるindex」の名称が出てますね。
![スクリーンショット 2020-06-15 12.06.08.png](https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.ap-northeast-1.amazonaws.com%2F0%2F215128%2Fdb41e09f-93d1-52df-93a9-ca343217b625.png?ixlib=rb-4.0.0&auto=format&gif-q=60&q=75&s=bd21dfbaec77fafc883f5f5544271253)
-
alldata[na_float_col]
の1回目
「欠損値が含まれるindex」の値の配列が出てきますね。
![スクリーンショット 2020-06-15 12.07.19.png](https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.ap-northeast-1.amazonaws.com%2F0%2F215128%2Fccf5ef3c-ee3f-0b05-7258-dd886d4e3c32.png?ixlib=rb-4.0.0&auto=format&gif-q=60&q=75&s=75c441cfd13e2b878e095e8af11dd65a)
- .isnull()の結果
isnull()
を使って各値がnullかどうかを判定しています。
alldata[na_float_col].isnull()
を出力
![スクリーンショット 2020-06-15 12.09.05.png](https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.ap-northeast-1.amazonaws.com%2F0%2F215128%2F299b67a6-5861-bd4e-305f-708d368714a6.png?ixlib=rb-4.0.0&auto=format&gif-q=60&q=75&s=b8ecb1061c1ac87bcc9afc6af8f646e1)
.locについて
alldata.loc[alldata[na_float_col].isnull(),na_float_col]
- .log:どうやら行列的に、行・列で値を見たり出力したりするのに使える様子
- .locの参照:https://note.nkmk.me/python-pandas-at-iat-loc-iloc/
-
alldata.loc[alldata[na_float_col].isnull(),na_float_col]
の出力結果
![スクリーンショット 2020-06-15 12.13.04.png](https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.ap-northeast-1.amazonaws.com%2F0%2F215128%2F682f5d82-cdaf-a6da-af04-75f98dd885b6.png?ixlib=rb-4.0.0&auto=format&gif-q=60&q=75&s=163830e6719dd30080615bd0497baab3)
欠損値に値を設定
行列的に指定して、欠損値のところだけ「0.0」を入れる。
alldata.loc[alldata[na_float_col].isnull(),na_float_col] = 0.0
カテゴリカル変数の欠損値の補完
※ほぼ同じなので割愛します。
欠損値の補完結果
1つずつの項目は細かすぎて見れないけど、これで行けているはず。
カテゴリカル変数のダミー化
を、やろうと思いましたが時間切れなったので、「カテゴリカル変数のダミー化」の予習にして終わりたいと思います。解析できるように数値化する的な感じか。。。?
おしまい。
欠損値の補完、、思ったより読み解きに時間がかかってしまいました。これが1行に処理を何でも詰め込むPythonの罠かと(なれてくれば罠でも何でもなくなればいいんですが)。
そろそろ実際の処理が近づいていて着ている匂いがしてきてワクワクしてきます。