2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Databricks datasets | Databricks on AWS [2021/10/4時点]の翻訳です。

Databricksクイックスタートガイドのコンテンツです。

本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。

Databricksでは、Databricksファイルシステム(DBFS)にマウントされている様々なサンプルデータセット(Databricksデータセット)が提供されています。これらのデータセットはドキュメントを通じてサンプルデータとして活用されています。

Databricksデータセットを参照する

Python、Scala、Rを用いたノートブックからData Science & EngineeringやDatabricks Machine Learningでこれらのファイルを参照するために、Databricks Utilitiesを活用することができます。以下のサンプルコードは利用可能なDatabricksデータセットの完全なリストを表示します。

Python
display(dbutils.fs.ls('/databricks-datasets'))
Scala
display(dbutils.fs.ls("/databricks-datasets"))
R
%fs ls "/databricks-datasets"

Screen Shot 2022-01-02 at 18.27.28.png

Databricksデータセットに関する情報を取得する

データセットに関する情報を取得するには、以下のサンプルのように(利用できる場合には)データセットのREADMEを、Data Science & EngineeringあるいはDatabricks Machine LearningからPython、R、Scalaを用いて参照します。

Python
f = open('/dbfs/databricks-datasets/README.md', 'r')
print(f.read())
Scala
scala.io.Source.fromFile("/dbfs/databricks-datasets/README.md").foreach {
  print
}
R
library(readr)

f = read_lines("/dbfs/databricks-datasets/README.md", skip = 0, n_max = -1L)
print(f)

Screen Shot 2022-01-02 at 18.33.36.png

Databricksデータセットを用いてテーブルを作成する

以下のコードでは、Databricks SQLのクエリーエディタでのSQLの使用方法、そして、Data Science & EngineeringあるいはDatabricks Machine LearningにおけるノートブックでPython、Scala、Rを用いて、Databricksデータセットからテーブルを作成する方法を説明しています。

SQL
CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')
Python
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
Scala
spark.sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")
R
library(SparkR)
sparkR.session()

sql("CREATE TABLE default.people10m OPTIONS (PATH 'dbfs:/databricks-datasets/learning-spark-v2/people/people-10m.delta')")

サンプルデータのより詳細な説明に関しては以下を参照ください。

Databricks 無料トライアル

Databricks 無料トライアル

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?