0
0

More than 1 year has passed since last update.

Databricksのdisplayメソッドでデータプロファイリングをサポートしました

Last updated at Posted at 2021-12-03

Databricksノートブックでデータフレームを表示する際に利用するdisplayメソッドで、簡単にデータの傾向を把握できるデータプロファイリングをサポートしました。

注意
本機能はDatabricksランタイム9.1LTS以降が必要となります。

Databricksランタイム9.1以降が稼働しているクラスターでdisplayメソッドを実行してデータフレームを表示するとData Profileタブが表示されます。

Python
import pyspark.pandas as ps
df = ps.read_csv("/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv")
display(df)

Data Profileタブをクリックすると、対象データフレームの傾向や統計情報をクイックに確認することができます。

  • 数値カラムとカテゴリ変数の特徴量は別々のテーブルに表示されます。
  • タブの上のSort byで特徴量をソートすることができます。
  • 一番右のChartカラムのChart to showでヒストグラム(Standard)あるいはQuantilesを選択することができます。
  • チャート拡大するにはexpandをチェックします。
  • 対数表示にするにはlogをチェックします。
  • チャートの上にマウスカーソルを移動すると詳細情報を確認することができます。

注意
本機能はdisplay(df)で動作します。df.display()ではサポートされていません。

詳細はマニュアル(英語)を参照ください。

Databricks 無料トライアル

Databricks 無料トライアル

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0