More than 5 years have passed since last update.

scikit-learnのMultiLabelBinarizerで個々の購入データを表にまとめる

Last updated at 2019-12-30Posted at 2019-12-30

データ元

個々の購入データ（変換前）

各行はユーザID、各列はユーザの購入したアイテムを表している。列数は最も購入アイテムの多いユーザの購入数になる。そのため、空欄にはNaNが入っている。

つくりたいテーブル（変換後）

各列を特定のアイテムに固定して、それぞれのユーザが購入したかを1/0で表す

やりかた

scikit-learn の MultiLabelBinarizerを用いる。変換前のデータフレームをdfとする。変換後の出力はdf_transとする。

from sklearn.preprocessing import MultiLabelBinarizer

df = df.fillna("none")

mlb = MultiLabelBinarizer()
result = mlb.fit_transform(df.values)
df_trans = pd.DataFrame(result, columns = mlb.classes_).drop('none', axis=1)

データフレーム中にNaNが入っているとMultiLabelBinarizerでエラーが発生するので適当な文字列に変換しておく（重複しなければ別にnoneじゃなくてもよい）

MultiLabelBinarizerオブジェクトを生成しfit_transformメソッドを呼び出す。引数にはdf.valuesとしてnumpy.array形式で指定する。

列名（アイテム名）はmlb.classes_で取り出せる。

最後にdropメソッドでnoneを削除すれば、変換後のテーブルを得る。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up