More than 3 years have passed since last update.

データブリックス・ジャパン株式会社

Databricksサンプルデータセットの説明

Last updated at 2022-06-09Posted at 2022-06-09

DatabricksにおけるファイルシステムであるDBFS(Databricksファイルシステム)には最初からサンプルデータが格納されており、これらは/databricks-datasetsのパスに存在します。

本記事では、2022/6/9時点(日々更新されます)で格納されているサンプルデータセットを説明します。データを読み込むサンプルコード、データの中身のスクリーンショットをカバーしています。

以下のコマンドをまとめたノートブックはこちらです。

まず、/databricks-datasetsの中のフォルダを表示するには、ノートブックで以下のコマンドを実行します。

Python

%fs
ls /databricks-datasets/

パス	名前	説明	データタイプ
dbfs:/databricks-datasets/COVID/	COVID/	COVID-19関連のデータ。定期的に更新される。	構造化データ、テキストなど
dbfs:/databricks-datasets/README.md	README.md	/databricks-dataset自体の説明	テキスト
dbfs:/databricks-datasets/Rdatasets/	Rdatasets/	元々はRで配布されているデータセット	構造化データなど
dbfs:/databricks-datasets/SPARK_README.md	SPARK_README.md	SparkのReadme	テキスト
dbfs:/databricks-datasets/adult/	adult/	"Census Income"データセット。国勢調査のデータに基づいて年収を予測するモデルを構築する際に使用される。	構造化データ
dbfs:/databricks-datasets/airlines/	airlines/	アメリカの国内線の発着時刻のデータ	構造化データ
dbfs:/databricks-datasets/amazon/	amazon/	Amazonレビューのデータセット	構造化データ、テキストなど
dbfs:/databricks-datasets/asa/	asa/	Flight Performance Datasets 1997-2008	構造化データ
dbfs:/databricks-datasets/atlas_higgs/	atlas_higgs/	Dataset from the ATLAS Higgs Boson Machine Learning Challenge 2014 http://opendata.cern.ch/record/328	構造化データ
dbfs:/databricks-datasets/bikeSharing/	bikeSharing/	Bike Sharing Dataset: バイクシェアリングの実績および気候	構造化データ
dbfs:/databricks-datasets/cctvVideos/	cctvVideos/	カメラから取得した動画、静止画	動画、画像
dbfs:/databricks-datasets/credit-card-fraud/	credit-card-fraud/	クレジットカードトランザクションデータ	構造化データ
dbfs:/databricks-datasets/cs100/	cs100/	英語テキスト、ログデータなど	テキスト、準構造化データ
dbfs:/databricks-datasets/cs110x/	cs110x/	映画のレビュー	テキスト
dbfs:/databricks-datasets/cs190/	cs190/	millionsong.txt, neuro.txt https://github.com/theofpa/datascience/tree/master/spark/data/cs190	構造化データ
dbfs:/databricks-datasets/data.gov/	data.gov/	Data.govデータセット	構造化データ
dbfs:/databricks-datasets/definitive-guide/	definitive-guide/	Spark Definitive Guideで使用されているデータセット	さまざま
dbfs:/databricks-datasets/delta-sharing/	delta-sharing/	Delta Sharingサンプルデータセット	構造化データ
dbfs:/databricks-datasets/flights/	flights/	On-Time Performanceデータセット	構造化データ
dbfs:/databricks-datasets/flower_photos/	flower_photos/	花の画像	画像
dbfs:/databricks-datasets/flowers/	flowers/	花のデータを格納しているDeltaテーブル	構造化データ、画像
dbfs:/databricks-datasets/genomics/	genomics/	ゲノムデータ	準構造化データ
dbfs:/databricks-datasets/hail/	hail/	hail用データ。サンプル、人口グループ、属性とVCF	構造化データ
dbfs:/databricks-datasets/identifying-campaign-effectiveness/	identifying-campaign-effectiveness/	SafeGraph FootTraffic Dataset	構造化データ
dbfs:/databricks-datasets/iot/	iot/	IoTセンサーデータ	構造化データ
dbfs:/databricks-datasets/iot-stream/	iot-stream/	IOT Device Data(合成)	構造化データ
dbfs:/databricks-datasets/learning-spark/	learning-spark/	書籍Learning Sparkで使用されているデータセット	さまざま
dbfs:/databricks-datasets/learning-spark-v2/	learning-spark-v2/	MnM Datasetなど	さまざま
dbfs:/databricks-datasets/lending-club-loan-stats/	lending-club-loan-stats/	融資データ	構造化データ
dbfs:/databricks-datasets/med-images/	med-images/	病理画像 Camelyon16 Grand Challenge	画像
dbfs:/databricks-datasets/media/	media/	OpenRTB BidStream Sample Dataset	構造化データ
dbfs:/databricks-datasets/mnist-digits/	mnist-digits/	MNIST handwritten digits dataset 手書き数字データ	画像
dbfs:/databricks-datasets/news20.binary/	news20.binary/	20 Newsgroups Dataset 2値分類	構造化データ
dbfs:/databricks-datasets/nyctaxi/	nyctaxi/	NYC Taxi Dataset タクシー乗降記録	構造化データ
dbfs:/databricks-datasets/nyctaxi-with-zipcodes/	nyctaxi-with-zipcodes/	NYC Taxi with Zipcodes Dataset	構造化データ
dbfs:/databricks-datasets/online_retail/	online_retail/	オンラインストアの注文データ	構造化データ
dbfs:/databricks-datasets/overlap-join/	overlap-join/	不明	構造化データ
dbfs:/databricks-datasets/power-plant/	power-plant/	Combined Cycle Power Plant Data Set 電力プラントのデータ	構造化データ
dbfs:/databricks-datasets/retail-org/	retail-org/	Synthetic Retail Dataset 合成小売データ	構造化データ
dbfs:/databricks-datasets/rwe/	rwe/	Simulated Patient Data シミュレートした患者データ	構造化データ
dbfs:/databricks-datasets/sai-summit-2019-sf/	sai-summit-2019-sf/	Fire Calls-For-Service 消防署への電話記録	構造化データ
dbfs:/databricks-datasets/sample_logs/	sample_logs/	Webサーバーログのサンプル	準構造化データ
dbfs:/databricks-datasets/samples/	samples/	サンプルデータ	さまざま
dbfs:/databricks-datasets/sfo_customer_survey/	sfo_customer_survey/	2013 SFO Customer Survey Data Set + Dictionary	構造化データ
dbfs:/databricks-datasets/sms_spam_collection/	sms_spam_collection/	SMS Spam Collection	テキスト
dbfs:/databricks-datasets/songs/	songs/	Sample of Million Song Dataset	構造化データ
dbfs:/databricks-datasets/structured-streaming/	structured-streaming/	構造化ストリーミングのサンプルデータ	構造化データ
dbfs:/databricks-datasets/timeseries/	timeseries/	Fire Department Calls for Service	構造化データ
dbfs:/databricks-datasets/tpch/	tpch/	TPC-H Data	構造化データ
dbfs:/databricks-datasets/warmup/	warmup/	TCP-DS Data	構造化データ
dbfs:/databricks-datasets/weather/	weather/	Seattle Temperature Recordings Data Set	構造化データ
dbfs:/databricks-datasets/wiki/	wiki/	Wikipediaデータ	テキスト
dbfs:/databricks-datasets/wikipedia-datasets/	wikipedia-datasets/	Wikipediaデータ	テキスト、構造化データ
dbfs:/databricks-datasets/wine-quality/	wine-quality/	Wine Quality Data Set	構造化データ

COVID

Python

df = spark.read.option("header", True).csv("dbfs:/databricks-datasets/COVID/CORD-19/2021-03-28/metadata.csv")
display(df)

RDatasets

Python

df = spark.read.option("header", True).csv("dbfs:/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv")
display(df)

adult

Python

df = spark.read.option("header", True).csv("dbfs:/databricks-datasets/adult/adult.data")
display(df)

airlines

Python

df = spark.read.option("header", True).csv("dbfs:/databricks-datasets/airlines/part-00000")
display(df)

amazon

Python

df = spark.read.format("parquet").option("header", True).load("dbfs:/databricks-datasets/amazon/data20K/")
display(df)

asa

Python

df = spark.read.option("header", True).csv("dbfs:/databricks-datasets/asa/airlines/1987.csv")
display(df)

atlas_higgs

Python

df = spark.read.option("header", True).csv("dbfs:/databricks-datasets/atlas_higgs/atlas_higgs.csv")
display(df)

bikeSharing

Python

df = spark.read.option("header", True).csv("dbfs:/databricks-datasets/bikeSharing/data-001/day.csv")
display(df)

cctvVideos

Python

df = spark.read.format("image").load("dbfs:/databricks-datasets/cctvVideos/train_images/")
display(df)

credit-card-fraud

Python

df = spark.read.format("parquet").option("header", True).load("dbfs:/databricks-datasets/credit-card-fraud/data/")
display(df)

cs100

Python

print(dbutils.fs.head("dbfs:/databricks-datasets/cs100/lab2/data-001/apache.access.log.PROJECT"))

cs110x

Python

df = spark.read.option("header", False).option("delimiter", "::").csv("dbfs:/databricks-datasets/cs110x/ml-1m/data-001/movies.dat")
display(df)

cs190

Python

df = spark.read.option("header", False).csv("dbfs:/databricks-datasets/cs190/data-001/millionsong.txt")
display(df)

data.gov

Python

df = spark.read.option("header", True).csv("dbfs:/databricks-datasets/data.gov/irs_zip_code_data/data-001/2013_soi_zipcode_agi.csv")
display(df)

definitive-guide

Python

df = spark.read.format("json").load("dbfs:/databricks-datasets/definitive-guide/data/activity-data/")
display(df)

delta-sharing

Python

print(dbutils.fs.head("dbfs:/databricks-datasets/delta-sharing/samples/README.md"))

flights

Python

df = spark.read.format("csv").option("header", True).load("dbfs:/databricks-datasets/flights/departuredelays.csv")
display(df)

flower_photos

Python

df = spark.read.format("image").load("dbfs:/databricks-datasets/flower_photos/daisy/")
display(df)

flowers

Python

df = spark.read.format("delta").load("dbfs:/databricks-datasets/flowers/delta/")
display(df)

genomics

Python

df = spark.read.format("parquet").load("dbfs:/databricks-datasets/genomics/1000G/dbgenomics.data/")
display(df)

hail

Python

print(dbutils.fs.head("dbfs:/databricks-datasets/hail/data-001/1kg_annotations.txt"))

identifying-campaign-effectiveness

Python

df = spark.read.format("csv").option("header", True).load("dbfs:/databricks-datasets/identifying-campaign-effectiveness/subway_foot_traffic/foot_traffic.csv")
display(df)

iot

Python

df = spark.read.format("json").load("dbfs:/databricks-datasets/iot/iot_devices.json")
display(df)

learning-spark

Python

df = spark.read.format("csv").load("dbfs:/databricks-datasets/learning-spark/data-001/favourite_animals.csv")
display(df)

learning-spark-v2

Python

df = spark.read.format("csv").option("header", True).load("dbfs:/databricks-datasets/learning-spark-v2/mnm_dataset.csv")
display(df)

lending-club-loan-stats

Python

df = spark.read.format("csv").option("header", True).load("dbfs:/databricks-datasets/lending-club-loan-stats/LoanStats_2018Q2.csv")
display(df)

med-images

Python

%pip install openslide-python

Python

WSI_TIF_PATH = "/databricks-datasets/med-images/camelyon16/"

import numpy as np
import openslide
import matplotlib.pyplot as plt

f, axarr = plt.subplots(1,4,sharey=True)
i=0
for pid in ["normal_034","normal_036","tumor_044", "tumor_045"]:
  path = '/dbfs/%s/%s.tif' %(WSI_TIF_PATH,pid)
  slide = openslide.OpenSlide(path)
  axarr[i].imshow(slide.get_thumbnail(np.array(slide.dimensions)//50))
  axarr[i].set_title(pid)
  i+=1
display()

media

Python

print(dbutils.fs.head("dbfs:/databricks-datasets/media/rtb/raw_incoming_bid_stream/bidRequestSample.txt"))

mnist-digits

Python

print(dbutils.fs.head("dbfs:/databricks-datasets/mnist-digits/README.md"))

news20.binary

Python

df = spark.read.format("parquet").load("dbfs:/databricks-datasets/news20.binary/data-001/training/")
display(df)

nyctaxi

Python

df = spark.read.format("json").load("dbfs:/databricks-datasets/nyctaxi/sample/json/")
display(df)

nyctaxi-with-zipcodes

Python

df = spark.read.format("delta").load("dbfs:/databricks-datasets/nyctaxi-with-zipcodes/subsampled/")
display(df)

online_retail

Python

df = spark.read.format("csv").option("header", True).load("dbfs:/databricks-datasets/online_retail/data-001/data.csv")
display(df)

overlap-join

Python

print(dbutils.fs.head("dbfs:/databricks-datasets/overlap-join"))

power-plant

Python

df = spark.read.format("csv").option("header", True).option("delimiter", "\t").load("dbfs:/databricks-datasets/power-plant/data/Sheet1.tsv")
display(df)

retail-org

Python

df = spark.read.format("parquet").load("dbfs:/databricks-datasets/retail-org/active_promotions/active_promotions.parquet")
display(df)

rwe

Python

df = spark.read.format("csv").option("header", True).option("delimiter", ",").load("dbfs:/databricks-datasets/rwe/ehr/csv/allergies.csv")
display(df)

sai-summit-2019-sf

Python

df = spark.read.format("csv").option("header", True).option("delimiter", ",").load("dbfs:/databricks-datasets/sai-summit-2019-sf/fire-calls.csv")
display(df)

sample_logs

Python

df = spark.read.format("csv").load("/databricks-datasets/sample_logs/")
display(df)

samples

Python

print(dbutils.fs.head("dbfs:/databricks-datasets/samples/data/mllib/gmm_data.txt"))

sfo_customer_survey

Python

df = spark.read.format("csv").option("header", True).load("dbfs:/databricks-datasets/sfo_customer_survey/2013_SFO_Customer_Survey.csv")
display(df)

sms_spam_collection

Python

df = spark.read.format("csv").option("header", False).load("dbfs:/databricks-datasets/sms_spam_collection/data-001/smsData.csv")
display(df)

songs

Python

df = spark.read.format("csv").option("header", False).option("delimiter", "\t").load("dbfs:/databricks-datasets/songs/data-001/part-00000")
display(df)

structured-streaming

Python

df = spark.read.format("json").load("dbfs:/databricks-datasets/structured-streaming/events/file-0.json")
display(df)

timeseries

Python

df = spark.read.format("csv").option("header", True).option("delimiter", ",").load("dbfs:/databricks-datasets/timeseries/Fires/Fire_Department_Calls_for_Service.csv")
display(df)

tpch

Python

print(dbutils.fs.head("dbfs:/databricks-datasets/tpch/README.md"))

warmup

Python

%fs
ls dbfs:/databricks-datasets/warmup/

weather

Python

df = spark.read.format("csv").option("header", True).option("delimiter", ",").load("dbfs:/databricks-datasets/weather/high_temps")
display(df)

wiki

Python

df = spark.read.format("csv").load("dbfs:/databricks-datasets/wiki/")
display(df)

wikipedia-datasets

Python

df = spark.read.format("json").load("dbfs:/databricks-datasets/wikipedia-datasets/data-001/clickstream/raw-uncompressed-json/")
display(df)

wine-quality

Python

df = spark.read.format("csv").option("header", True).option("delimiter", ";").load("dbfs:/databricks-datasets/wine-quality/winequality-red.csv")
display(df)

Databricks 無料トライアル

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up