0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

DatabricksノートブックとSQLエディタの結果テーブルでネイティブなデータプロファイリングが使えるようになりました

0
Posted at

はじめに

2026年5月1日にリリースされたDatabricksのアップデートで、ノートブックおよびSQLエディタの結果テーブルでネイティブなデータプロファイリング機能 が利用可能になりました。これまでdisplay(df)の出力から「+ > データプロファイリング」を実行して別途プロファイル結果を生成する必要がありましたが、新機能では結果テーブル上で列ヘッダーを選択するだけで、その場でプロファイリング統計を確認できるようになります。

本記事では、新しいネイティブデータプロファイリング機能と従来のデータプロファイリング機能の違い、それぞれの使い方を整理します。

参考リリースノート:

ネイティブデータプロファイリング (新機能)

概要

ノートブックの結果テーブル、および新しいDatabricks SQLエディタの結果テーブルで、列のプロファイリング統計をその場で表示できるようになりました。

操作は以下のシンプルな2ステップです。

  1. 結果テーブルで列ヘッダーをクリックして列を選択する
  2. 選択内容の詳細を開く (Open selection details)」をクリックする

サイドペインが開き、選択した列のプロファイリング統計が表示されます。

詳細はノートブックの出力と結果 - データを選択を参照してください。

ノートブックでの使用

ノートブックでdisplay(df)などにより結果テーブルを表示した状態で、列ヘッダーを選択 → 「選択内容の詳細を開く」をクリックします。

Screenshot 2026-05-08 at 7.13.10.JPG

SQLエディタでの使用

新しいDatabricks SQLエディタでも同じ操作が利用できます。クエリを実行した結果テーブルで列ヘッダーを選択し、「選択内容の詳細を開く」をクリックすることで、プロファイリング統計のサイドペインが表示されます。

Screenshot 2026-05-08 at 7.15.03.JPG

従来のデータプロファイリング機能

新機能と区別するために、従来のデータプロファイリング機能についても整理しておきます。

概要

従来からDatabricksノートブックには組み込みのデータプロファイリング機能が用意されています (Databricks Runtime 9.1 LTS以降で利用可能)。display関数でDataFrameを表示した際、結果テーブルの「+ > データプロファイリング」をクリックすることで、新しいセルが実行されてプロファイルが生成されます。

# Display the DataFrame, then click "+ > Data Profile" to generate a data profile
display(df)

データプロファイリングの結果には以下が含まれます。

  • 数値、文字列、日付の列の要約統計
  • 各列の値分布のヒストグラム

詳細はチュートリアル: Databricks ノートブックを使用した EDA 手法 - データプロファイリングの生成を参照してください。

プログラムからの実行

dbutils.data.summarizeを使用すると、プログラムからデータプロファイリングを生成することもできます。

dbutils.data.summarize(df)

新旧の使い分け

観点 ネイティブデータプロファイリング (新) 従来のデータプロファイリング
起動方法 列ヘッダーを選択 → 選択内容の詳細を開く 結果テーブルの「+ > データプロファイリング」
対象範囲 選択した列単位 DataFrame全体
表示場所 結果テーブル横のサイドペイン 別タブ (新しいセル実行)
利用可能箇所 ノートブック、新しいSQLエディタ ノートブックのdisplay出力
ヒストグラム 表示 表示
プログラムAPI なし (UI操作) dbutils.data.summarize(df)

ざっくりとした使い分けの目安は以下です。

  • 特定の列をサッと確認したい: ネイティブデータプロファイリング。クリック数が少なく、テーブル探索の流れを止めずに確認できます。SQLエディタでも同じ操作で利用できる点も大きなメリットです。
  • DataFrame全体の俯瞰的なサマリーが欲しい: 従来のデータプロファイリングまたはdbutils.data.summarize。すべての列の統計をまとめて確認したい場合や、プログラムで実行したい場合に有用です。

まとめ

ノートブックおよびSQLエディタでネイティブなデータプロファイリング機能が利用可能になり、列単位での統計確認がワンクリックで行えるようになりました。従来のdisplay出力からの「+ > データプロファイリング」も引き続き利用できるため、用途に応じて使い分けるとよいでしょう。

EDAのワークフローでは、まずネイティブのプロファイリングで気になる列の特性を素早く確認し、必要に応じて全体像を従来のデータプロファイリングで俯瞰する、という流れがスムーズです。

はじめてのDatabricks

はじめてのDatabricks

Databricks無料トライアル

Databricks無料トライアル

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?