Databricksノートブックのアウトプットと処理結果

Databricks

Posted at 2022-12-16

Notebook outputs and results | Databricks on AWS [2022/11/30時点]の翻訳です。

本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

ノートブックをクラスターにアタッチし、1つ以上のセルを実行した後は、ノートブックは状態を持ち、アウトプットを表示します。ここでは、どのようにノートブックの状態とアウトプットを管理するのかを説明します。

ノートブックの状態とアウトプットのクリア

ノートブックの状態とアウトプットのクリアするには、Runメニューの下部にあるClearオプションの一つを選択します。

メニューオプション	説明
Clear all cell outputs	セルのアウトプットをクリアします。ノートブックを共有する際に結果を含めたくない際に役立ちます。
Clear state	関数、変数定義、データ、インポートされたライブラリを含むノートブックの状態をクリアします。
Clear state and outputs	セルのアウトプットとノートブックの状態の両方をクリアします。
Clear state and run all	ノートブックの状態をクリアし、新規に処理を実行します。

結果の表示

セルが実行されると、Databricksは1000行のデータフレームを返却します。Databricksランタイム8.4以降では、1000行以上のデータが存在する場合には、最大10,000行まで表示するようにクエリーを再実行することができます。

ネイティブにPythonを用いてPythonノートブックでSQLセルの結果を探索

SQLを用いてデータをロードし、Pythonを用いてデータを探索することができます。DatabricksのPythonノートブックで、SQL言語セルのテーブルの結果は自動でPythonデータフレームとして利用できるようになっています。詳細は、PythonノートブックにおけるPythonをネイティブに用いたSQLセル結果の探索をご覧ください。

結果のダウンロード

デフォルトでは結果のダウンロードは有効化されています。この設定を切り替えるには、Manage the ability to download results from notebooksをご覧ください。

ローカルマシンにテーブル形式のアウトプットを含むセルの処理結果をダウンロードすることができます。タブのタイトルの隣にある3点ボタンメニューをクリックします。結果の行数とDatabricksランタイムのバージョンに応じてメニューオプションが変化します。ダウンロードされた結果はexport.csvというCSVファイルとしてローカルマシンに保存されます。

セルにおける複数のアウトプットの参照

Pythonノートブックと非Pythonノートブックの%pythonセルは、セルにおける複数アウトプットをサポートしています。例えば、以下のコードのアウトプットにはプロットとテーブルの両方が含まれます。

Python

import pandas as pd
from sklearn.datasets import load_iris

data = load_iris()
iris = pd.DataFrame(data=data.data, columns=data.feature_names)
ax = iris.plot()
print("plot")
display(ax)
print("data")
display(iris)

Databricksランタイム7.3LTSでは、spark.databricks.workspace.multipleResults.enabled trueを設定して、この機能を有効化しなくてはなりません。

Databricks 無料トライアル

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up