Visualizations | Databricks on AWS [2022/7/6時点]の翻訳です。
Databricksクイックスタートガイドのコンテンツです。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Databricksノートブックにはビルトインのグラフと可視化のサポートがあります。このセクションで説明されているビジュアライゼーション(可視化)は、ノートブックセル内部でデータテーブルの結果をpandasやApache Sparkデータフレームで表示するためにdisplay
コマンドを使用することがで利用することができます。
レガシーなDatabricksのビジュアライゼーションに関しては、Databricksにおけるデータの可視化(レガシー)を参照ください。
新たなビジュアライゼーションの作成
セルの結果から可視化を作成するには、結果を表示するためにdisplay
コマンドを使用する必要があります。+ をクリックしを選択します。
ビジュアライゼーションエディタが表示されます。
-
Visualization Typeドロップダウンで、可視化のタイプを選択します。
- 可視化に表示させるデータを選択します。選択された可視化のタイプに応じて使用できるフィールドは異なります。
- Saveをクリックします。
可視化ツール
ビジュアライゼーションエディタのグラフの右上にマウスカーソルを移動すると、選択、ズーム、パンのようなオペレーションを実行することができるPlotlyツールバーが表示されます。
ノートブックのチャートの右上にマウスカーソルを移動すると、ツールのサブセットが表示されます。
可視化のタイプ
新たなデータプロファイルの作成
注意
Databricksランタイム 9.1 LTS以降で利用できます。
データプロファイルはApache Sparkデータフレーム、pandasデータフレーム、SQLテーブルをのサマリー統計情報を表形式、グラフィック形式で表示します。結果セルからデータプロファイルを作成するには、+ をクリックし、を選択します。
Databricksがサマリー統計情報を計算して表示します。
- 数値、カテゴリー変数の特徴量は別のテーブルに表示されます。
- タブの上部で特徴量をソート、検索することができます。
- チャート列の上部で、ヒストグラム(Standard)、文位数の表示を切り替えることができます。
- expandをチェックすることでチャートを拡大することができます。
- logをチェックすることでチャートをログスケールで表示するとができます。
- ヒストグラムの柱の境界や行数、分位数の値などの詳細情報を表示するためにチャート上にマウスカーソルを移動します。
また、プログラムからデータプロファイルを生成することもできます。サマライズコマンド(dbutils.data.summarize)を参照ください。
可視化やデータプロファイルを操作する
注意
データプロファイルはDatabricksランタイム 9.1 LTS以降で利用できます。
可視化やデータプロファイルの名前の変更、複製、削除
可視化やデータプロファイルの名前変更、複製、削除を行うにはタブ名の右にある3点リーダーをクリックします。
また、タブ名を直接クリックし名前を変更することもできます。
可視化の編集
ビジュアライゼーションエディタを開くために可視化の下にあるをクリックします。変更が完了したらSaveをクリックします。
色の編集
可視化を作成した際、編集する際に可視化の色をカスタマイズすることができます。
- 可視化を作成、編集します。
- Colorsをクリックします。
- 色を変更するには、四角をクリックし以下のいずれかを行い新たな色を選択します。
- カラーセレクタをクリックする。
- 16進数を入力する。
- カラーセレクタの外をクリックすることでセレクタを閉じ、変更を保存します。
一時的にシリーズを非表示、表示にする
可視化のシリーズを非表示にするには、凡例のシリーズをクリックします。シリーズを再度表示するには、凡例のシリーズをクリックします。
一つのシリーズのみを表示するには、凡例のシリーズをダブルクリックします。他のシリーズを表示するには、それぞれのシリーズをクリックします。
可視化のダウンロード
可視化をpngフォーマットでダウンロードするには、ノートブックセル、あるいはビジュアライゼーションエディタのカメラアイコンをクリックします。
- ノートブックセルでは、セル上にカーソルを移動した際に右上にカメラアイコンが表示されます。
- ビジュアライゼーションエディタでは、チャート上にカーソルを移動した際にカメラアイコンが表示されます。可視化ツールを参照ください。
ダッシュボードに可視化、データプロファイルを追加する
- タブ名の右にある3点リーダーをクリックします。
- Add to dashboardを選択します。利用可能なダッシュボードビューの一覧とメニューオプションAdd to new dashboardが表示されます。
- ダッシュボードを選択するか、Add to new dashboardを選択します。新たに可視化、データプロファイルが追加されたダッシュボードが表示されます。