kaggleのkernelを読んで、便利だと思ったメソッド達
最近kaggleに取り組み始め、今まで頑張って手作業で作っていたcolumnsの処理を簡単にするメソッドがあったので、忘備録としてまとめます。
今行っているコンペで使用した使いかたのみ簡単にまとめているので、詳しい使い方は参考にした記事に飛んで調べてみてください。
欲しい値を表示したい時に
今回私が行っているコンペでは、与えられたデータがtrain_dataとtrain_labelと存在しており、2つのcsvの中で重複する項目が存在していました。
最終的にはこの2つのデータを合体させて、モデルに与えなければならないため、重複した内容を間引いてから合体させないといけません。
- unique()
対象にしたcolumnsに含まれる、固有の値を抜き出します。 - isin(
入っているか確認したい値
)
確認したい値がDataFrameの中に含まれているかを確認します。返り値はbool型で、デフォルトではFalseが返ってきます。~
を先頭につけるとTrueが返ってくるようになります。 - where(
対象の条件
,Trueの場合
,Falseの場合
,オプション
)
対象の条件に適合したindexに対してそれぞれの処理をおこなう。inplace=True
のオプションをつけると、元のDataFrameに反映される
第2引数と第3引数を省略すると、該当するindexが返ってくる
カラム毎にグループ化するなどの、複数の対象をとって同じ処理をさせたい
-
groupby([
'グループ化したい1つ目のカラム名'
,'グループ化したい2つ目のカラム名'
]).適用したい処理
.mean()とかその辺 Aグループに属しているBグループの値段の平均を出す。みたいな使い方をする。指定したカラム名の重複がなくなる。 -
agg({
'処理の対象となるカラム名'
: ['処理をしたいコト1(minやmaxなど)'
,処理したいコト2
]})
groupbyを行った後に使用すると便利