Notebook outputs and results | Databricks on AWS [2022/11/30時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
ノートブックをクラスターにアタッチし、1つ以上のセルを実行した後は、ノートブックは状態を持ち、アウトプットを表示します。ここでは、どのようにノートブックの状態とアウトプットを管理するのかを説明します。
ノートブックの状態とアウトプットのクリア
ノートブックの状態とアウトプットのクリアするには、Runメニューの下部にあるClearオプションの一つを選択します。
メニューオプション | 説明 |
---|---|
Clear all cell outputs | セルのアウトプットをクリアします。ノートブックを共有する際に結果を含めたくない際に役立ちます。 |
Clear state | 関数、変数定義、データ、インポートされたライブラリを含むノートブックの状態をクリアします。 |
Clear state and outputs | セルのアウトプットとノートブックの状態の両方をクリアします。 |
Clear state and run all | ノートブックの状態をクリアし、新規に処理を実行します。 |
結果の表示
セルが実行されると、Databricksは1000行のデータフレームを返却します。Databricksランタイム8.4以降では、1000行以上のデータが存在する場合には、最大10,000行まで表示するようにクエリーを再実行することができます。
ネイティブにPythonを用いてPythonノートブックでSQLセルの結果を探索
SQLを用いてデータをロードし、Pythonを用いてデータを探索することができます。DatabricksのPythonノートブックで、SQL言語セルのテーブルの結果は自動でPythonデータフレームとして利用できるようになっています。詳細は、PythonノートブックにおけるPythonをネイティブに用いたSQLセル結果の探索をご覧ください。
結果のダウンロード
デフォルトでは結果のダウンロードは有効化されています。この設定を切り替えるには、Manage the ability to download results from notebooksをご覧ください。
ローカルマシンにテーブル形式のアウトプットを含むセルの処理結果をダウンロードすることができます。タブのタイトルの隣にある3点ボタンメニューをクリックします。結果の行数とDatabricksランタイムのバージョンに応じてメニューオプションが変化します。ダウンロードされた結果はexport.csv
というCSVファイルとしてローカルマシンに保存されます。
セルにおける複数のアウトプットの参照
Pythonノートブックと非Pythonノートブックの%python
セルは、セルにおける複数アウトプットをサポートしています。例えば、以下のコードのアウトプットにはプロットとテーブルの両方が含まれます。
import pandas as pd
from sklearn.datasets import load_iris
data = load_iris()
iris = pd.DataFrame(data=data.data, columns=data.feature_names)
ax = iris.plot()
print("plot")
display(ax)
print("data")
display(iris)
Databricksランタイム7.3LTSでは、spark.databricks.workspace.multipleResults.enabled true
を設定して、この機能を有効化しなくてはなりません。