6
8

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

EDAの段階でよく使われるライブラリについてご紹介します。

Posted at

私よく使っているのは以下の3つです。

①pandas-profiling
こちらは結構前からあったライブラリで、ご存じの方も多いと思います。
私にとっては定番のライブラリみたいで、基本データをもらった時には一回これを実行して、全体像を把握します。
importして呼び出すと、以下のようなOutputが表示されます。
MicrosoftTeams-image.png

②Sweetviz
pandas-profilingより機能が多いですが、少し重いです。
*特徴としては二つのデータセットを比較できます。(trainとtestの比較とか)
MicrosoftTeams-image (1).png

③pandasGUI
こちらはレポートの生成ではなく、操作可能なGUIを生成します。
Excelのピボットみたいな機能もあって、ピボットよりは使いやすいです。
MicrosoftTeams-image (2).png

pandas-profilingやSweetvizとpandasGUIを組み合わせてEDAをすると、かなり効率的に作業を進めることができます。
その後の特徴エンジニアリングの参考にもなりますので、ぜひ試してみてください。

https://github.com/pandas-profiling/pandas-profiling
https://github.com/fbdesignpro/sweetviz
https://github.com/adamerose/pandasgui

6
8
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
8

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?