この記事は Polars Advent Calendar 2024 2日目の記事です。
はじめに
今年の8月に開催された Polars Data Crunch #3で、polarsのudfとかpluginについてLTをしました。
この発表で少し触れた、polars-dsのDIAの機能がEDAに結構便利そうなので、もう少し触ってみて紹介したいと思います。
polars-dsとは
polarsコミュニティで作成されたプラグインの一つです。データ分析に関する多数の機能が備わっています。
DIA (Data Inspection Assistant)
polars-dsのクラスの一つで、EDA関連の機能が備わっています。
https://polars-ds-extension.readthedocs.io/en/latest/
DIAでEDAしてみる
サンプルコードはkaggleのnotebookとして公開しています。これに沿ってこの記事でも説明していきます。
[準備] ライブラリのインストール
pip install polars==1.1.0 polars-ds[plot]==0.6.2 vegafusion[embed]==1.6.9
polarsのバージョン指定、polars-dsのinstallを行います。
また、一部の可視化機能で必要になるvegafusionも入れておきます。
import polars as pl
import polars.selectors as cs
import polars_ds as pds
from polars_ds.diagnosis import DIA
import warnings
warnings.simplefilter('ignore')
pl.Config.set_tbl_rows(20)
ライブラリのインポート。
[準備] データ読み込み
# データセットとして関西kaggler会コンペ2023秋のデータを使用します
# https://www.kaggle.com/competitions/kansai-kaggler-autumn-2023
df = pl.read_csv('/kaggle/input/kansai-kaggler-autumn-2023/train.csv')
関西kaggler会コンペ2023秋 のデータセットを使います。近畿地方の住宅情報から取引価格を予測する回帰タスクで、trainに全く含まれていない大阪のデータがtestデータとなっている等、面白いコンペでしたが、今回はとくに関係しません。
[準備] DIAクラスのインスタンス作成
# dataframeを与えてDIAクラスをインスタンス化します
dia = DIA(df)
DIAクラスのインスタンスを作成します。このインスタンスのメソッドで各機能を利用します。
データの概観を確認する系
# 各列の欠損値やinfの数を確認
dia.special_values_report()
# str列の統計量を表示
dia.str_stats()
# 数値列の統計量を表示
dia.numeric_profile(histogram=True)
pandasのdescribeのように各列の統計量などでデータの概観を確認できる機能群です。
str_stats()で文字列の長さの統計量が確認できたり、numeric_profile()で各列の分布まで確認できるのは地味に嬉しい機能かなと思います。
列の特性を推定する系
# バイナリ値であると推定される列を抽出
dia.infer_binary()
['AreaIsGreaterFlag',
'FrontageIsGreaterFlag',
'TotalFloorAreaIsGreaterFlag',
'PrewarBuilding']
# 定数値であると推定される列を抽出
dia.infer_const()
[]
# 離散値であると推定される列を抽出
dia.infer_discrete()
['Type',
'Region',
'Prefecture',
'Municipality',
'DistrictName',
'NearestStation',
'TimeToNearestStation',
'MinTimeToNearestStation',
'MaxTimeToNearestStation',
'TradePrice',
'FloorPlan',
'Area',
'AreaIsGreaterFlag',
'LandShape',
'Frontage',
'TotalFloorArea',
'TotalFloorAreaIsGreaterFlag',
'BuildingYear',
'PrewarBuilding',
'Structure',
'Use',
'Purpose',
'Direction',
'Classification',
'Breadth',
'CityPlanning',
'CoverageRatio',
'FloorAreaRatio',
'Year',
'Quarter',
'Renovation',
'Remarks']
# 確率値であると推定される列を抽出
dia.infer_prob()
[]
# 欠損が多い列を抽出
dia.infer_high_null(threshold=0.75)
['FloorPlan', 'Renovation', 'Remarks']
使いどころがあるようなないような...。
可視化系
numeric_columns = [
'MinTimeToNearestStation',
'MaxTimeToNearestStation',
'TradePrice',
'Area',
'Frontage',
'TotalFloorArea',
'BuildingYear',
'Breadth',
'CoverageRatio',
'FloorAreaRatio',
'Year',
'Quarter'
]
下準備として数値列を定義しておきます。
# 相関係数行列
dia.plot_corr(subset=numeric_columns, method='spearman')
お手軽に相関係数行列のヒートマップが作成できます。速度も気になりません。
# 欠損値の分布
dia.plot_null_distribution(
cs.numeric(),
row_group_size=5_000,
sort = 'row_id'
)
# 分布の可視化
df_bins, plot = dia.plot_dist(
"BuildingYear",
n_bins=100,
density=False,
)
plot.interactive()
# グループごとの分布比較
dia.compare_dist_on_segment(
'BuildingYear',
by='Prefecture',
n_bins=100,
density=False,
)
分布の可視化も簡単にできます。
各カテゴリごとの分布比較は絶対やるので、嬉しい機能。
# 線形回帰の結果を表示
dia.plot_lin_reg(
x = 'TotalFloorArea',
target = 'TradePrice',
add_bias=True,
).interactive()
おわりに
polars-dsのDIAという機能の紹介でした。
データ処理だけじゃなくて、EDAでもpolars使っていきたいと思います。