Databricksノートブックでデータフレームを表示する際に利用するdisplay
メソッドで、簡単にデータの傾向を把握できるデータプロファイリングをサポートしました。
注意
本機能はDatabricksランタイム9.1LTS以降が必要となります。
Databricksランタイム9.1以降が稼働しているクラスターでdisplayメソッドを実行してデータフレームを表示するとData Profileタブが表示されます。
Python
import pyspark.pandas as ps
df = ps.read_csv("/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv")
display(df)
Data Profileタブをクリックすると、対象データフレームの傾向や統計情報をクイックに確認することができます。
- 数値カラムとカテゴリ変数の特徴量は別々のテーブルに表示されます。
- タブの上のSort byで特徴量をソートすることができます。
- 一番右のChartカラムのChart to showでヒストグラム(Standard)あるいはQuantilesを選択することができます。
- チャート拡大するにはexpandをチェックします。
- 対数表示にするにはlogをチェックします。
- チャートの上にマウスカーソルを移動すると詳細情報を確認することができます。
注意
本機能はdisplay(df)
で動作します。df.display()
ではサポートされていません。
詳細はマニュアル(英語)を参照ください。