LoginSignup
2
1

More than 1 year has passed since last update.

Databricksランタイム9.0のGA、dbutils.data.summarizeのサポート

Posted at

Databricks Runtime 9.0 and Databricks Runtime 9.0 Photon | Databricks on AWSにあるように、今回のランタイムでは新たなユーティリティコマンドdbutils.data.summarizeがサポートされました(パブリックプレビュー)。pandasデータフレーム、Sparkデータフレームのサマリー統計を簡単に確認することができます。

Databricks Utilities | Databricks on AWS

Python
df = spark.read.format('csv').load(
  '/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv',
  header=True,
  inferSchema=True
)
dbutils.data.summarize(df)
Scala
val df = spark.read.format("csv")
  .option("inferSchema", "true")
  .option("header", "true")
  .load("/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv")
dbutils.data.summarize(df)

このように各カラムのデータ分布、欠損値の割合などを簡単に確認できます。
Screen Shot 2021-08-19 at 8.40.31.png

Databricks 無料トライアル

Databricks 無料トライアル

2
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
1