LoginSignup
0
0

More than 1 year has passed since last update.

Databricksノートブックのアウトプットと処理結果

Posted at

Notebook outputs and results | Databricks on AWS [2022/11/30時点]の翻訳です。

本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

ノートブックをクラスターにアタッチし、1つ以上のセルを実行した後は、ノートブックは状態を持ち、アウトプットを表示します。ここでは、どのようにノートブックの状態とアウトプットを管理するのかを説明します。

ノートブックの状態とアウトプットのクリア

ノートブックの状態とアウトプットのクリアするには、Runメニューの下部にあるClearオプションの一つを選択します。

メニューオプション 説明
Clear all cell outputs セルのアウトプットをクリアします。ノートブックを共有する際に結果を含めたくない際に役立ちます。
Clear state 関数、変数定義、データ、インポートされたライブラリを含むノートブックの状態をクリアします。
Clear state and outputs セルのアウトプットとノートブックの状態の両方をクリアします。
Clear state and run all ノートブックの状態をクリアし、新規に処理を実行します。

結果の表示

セルが実行されると、Databricksは1000行のデータフレームを返却します。Databricksランタイム8.4以降では、1000行以上のデータが存在する場合には、最大10,000行まで表示するようにクエリーを再実行することができます。

ネイティブにPythonを用いてPythonノートブックでSQLセルの結果を探索

SQLを用いてデータをロードし、Pythonを用いてデータを探索することができます。DatabricksのPythonノートブックで、SQL言語セルのテーブルの結果は自動でPythonデータフレームとして利用できるようになっています。詳細は、PythonノートブックにおけるPythonをネイティブに用いたSQLセル結果の探索をご覧ください。

結果のダウンロード

デフォルトでは結果のダウンロードは有効化されています。この設定を切り替えるには、Manage the ability to download results from notebooksをご覧ください。

ローカルマシンにテーブル形式のアウトプットを含むセルの処理結果をダウンロードすることができます。タブのタイトルの隣にある3点ボタンメニューをクリックします。結果の行数とDatabricksランタイムのバージョンに応じてメニューオプションが変化します。ダウンロードされた結果はexport.csvというCSVファイルとしてローカルマシンに保存されます。

セルにおける複数のアウトプットの参照

Pythonノートブックと非Pythonノートブックの%pythonセルは、セルにおける複数アウトプットをサポートしています。例えば、以下のコードのアウトプットにはプロットとテーブルの両方が含まれます。

Python
import pandas as pd
from sklearn.datasets import load_iris

data = load_iris()
iris = pd.DataFrame(data=data.data, columns=data.feature_names)
ax = iris.plot()
print("plot")
display(ax)
print("data")
display(iris)

Databricksランタイム7.3LTSでは、spark.databricks.workspace.multipleResults.enabled trueを設定して、この機能を有効化しなくてはなりません。

Databricks 無料トライアル

Databricks 無料トライアル

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0