Databricks datasets | Databricks on AWS [2021/10/4時点]の翻訳です。
Databricksクイックスタートガイドのコンテンツです。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
Databricksでは、Databricksファイルシステム(DBFS)にマウントされている様々なサンプルデータセット(Databricksデータセット)が提供されています。これらのデータセットはドキュメントを通じてサンプルデータとして活用されています。
Databricksデータセットを参照する
Python、Scala、Rを用いたノートブックからData Science & EngineeringやDatabricks Machine Learningでこれらのファイルを参照するために、Databricks Utilitiesを活用することができます。以下のサンプルコードは利用可能なDatabricksデータセットの完全なリストを表示します。
display(dbutils.fs.ls('/databricks-datasets'))
display(dbutils.fs.ls("/databricks-datasets"))
%fs ls "/databricks-datasets"
Databricksデータセットに関する情報を取得する
データセットに関する情報を取得するには、以下のサンプルのように(利用できる場合には)データセットのREADME
を、Data Science & EngineeringあるいはDatabricks Machine LearningからPython、R、Scalaを用いて参照します。
f = open('/dbfs/databricks-datasets/README.md', 'r')
print(f.read())
scala.io.Source.fromFile("/dbfs/databricks-datasets/README.md").foreach {
print
}
library(readr)
f = read_lines("/dbfs/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)
Databricksデータセットを用いてテーブルを作成する
以下のコードでは、Databricks SQLのクエリーエディタでのSQLの使用方法、そして、Data Science & EngineeringあるいはDatabricks Machine LearningにおけるノートブックでPython、Scala、Rを用いて、Databricksデータセットからテーブルを作成する方法を説明しています。
CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
library(SparkR)
sparkR.session()
sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
サンプルデータのより詳細な説明に関しては以下を参照ください。