More than 5 years have passed since last update.

DataFrameのカラム整理に便利なメソッドの覚書

Posted at 2019-12-17

kaggleのkernelを読んで、便利だと思ったメソッド達

最近kaggleに取り組み始め、今まで頑張って手作業で作っていたcolumnsの処理を簡単にするメソッドがあったので、忘備録としてまとめます。
今行っているコンペで使用した使いかたのみ簡単にまとめているので、詳しい使い方は参考にした記事に飛んで調べてみてください。

今回私が行っているコンペでは、与えられたデータがtrain_dataとtrain_labelと存在しており、２つのcsvの中で重複する項目が存在していました。
最終的にはこの２つのデータを合体させて、モデルに与えなければならないため、重複した内容を間引いてから合体させないといけません。

unique()
対象にしたcolumnsに含まれる、固有の値を抜き出します。
isin(入っているか確認したい値)
確認したい値がDataFrameの中に含まれているかを確認します。返り値はbool型で、デフォルトではFalseが返ってきます。~を先頭につけるとTrueが返ってくるようになります。
where(対象の条件, Trueの場合, Falseの場合, オプション)
対象の条件に適合したindexに対してそれぞれの処理をおこなう。inplace=Trueのオプションをつけると、元のDataFrameに反映される
第２引数と第３引数を省略すると、該当するindexが返ってくる

groupby(['グループ化したい１つ目のカラム名', 'グループ化したい2つ目のカラム名']) .適用したい処理.mean()とかその辺 Aグループに属しているBグループの値段の平均を出す。みたいな使い方をする。指定したカラム名の重複がなくなる。
agg({'処理の対象となるカラム名': ['処理をしたいコト１（minやmaxなど）', 処理したいコト2]})
groupbyを行った後に使用すると便利