LoginSignup
4
3

More than 1 year has passed since last update.

Databricksサンプルデータセットの説明

Last updated at Posted at 2022-06-09

DatabricksにおけるファイルシステムであるDBFS(Databricksファイルシステム)には最初からサンプルデータが格納されており、これらは/databricks-datasetsのパスに存在します。

本記事では、2022/6/9時点(日々更新されます)で格納されているサンプルデータセットを説明します。データを読み込むサンプルコード、データの中身のスクリーンショットをカバーしています。

以下のコマンドをまとめたノートブックはこちらです。

まず、/databricks-datasetsの中のフォルダを表示するには、ノートブックで以下のコマンドを実行します。

Python
%fs
ls /databricks-datasets/
パス 名前 説明 データタイプ
dbfs:/databricks-datasets/COVID/ COVID/ COVID-19関連のデータ。定期的に更新される。 構造化データ、テキストなど
dbfs:/databricks-datasets/README.md README.md /databricks-dataset自体の説明 テキスト
dbfs:/databricks-datasets/Rdatasets/ Rdatasets/ 元々はRで配布されているデータセット 構造化データなど
dbfs:/databricks-datasets/SPARK_README.md SPARK_README.md SparkのReadme テキスト
dbfs:/databricks-datasets/adult/ adult/ "Census Income"データセット。国勢調査のデータに基づいて年収を予測するモデルを構築する際に使用される。 構造化データ
dbfs:/databricks-datasets/airlines/ airlines/ アメリカの国内線の発着時刻のデータ 構造化データ
dbfs:/databricks-datasets/amazon/ amazon/ Amazonレビューのデータセット 構造化データ、テキストなど
dbfs:/databricks-datasets/asa/ asa/ Flight Performance Datasets 1997-2008 構造化データ
dbfs:/databricks-datasets/atlas_higgs/ atlas_higgs/ Dataset from the ATLAS Higgs Boson Machine Learning Challenge 2014 http://opendata.cern.ch/record/328 構造化データ
dbfs:/databricks-datasets/bikeSharing/ bikeSharing/ Bike Sharing Dataset: バイクシェアリングの実績および気候 構造化データ
dbfs:/databricks-datasets/cctvVideos/ cctvVideos/ カメラから取得した動画、静止画 動画、画像
dbfs:/databricks-datasets/credit-card-fraud/ credit-card-fraud/ クレジットカードトランザクションデータ 構造化データ
dbfs:/databricks-datasets/cs100/ cs100/ 英語テキスト、ログデータなど テキスト、準構造化データ
dbfs:/databricks-datasets/cs110x/ cs110x/ 映画のレビュー テキスト
dbfs:/databricks-datasets/cs190/ cs190/ millionsong.txt, neuro.txt https://github.com/theofpa/datascience/tree/master/spark/data/cs190 構造化データ
dbfs:/databricks-datasets/data.gov/ data.gov/ Data.govデータセット 構造化データ
dbfs:/databricks-datasets/definitive-guide/ definitive-guide/ Spark Definitive Guideで使用されているデータセット さまざま
dbfs:/databricks-datasets/delta-sharing/ delta-sharing/ Delta Sharingサンプルデータセット 構造化データ
dbfs:/databricks-datasets/flights/ flights/ On-Time Performanceデータセット 構造化データ
dbfs:/databricks-datasets/flower_photos/ flower_photos/ 花の画像 画像
dbfs:/databricks-datasets/flowers/ flowers/ 花のデータを格納しているDeltaテーブル 構造化データ、画像
dbfs:/databricks-datasets/genomics/ genomics/ ゲノムデータ 準構造化データ
dbfs:/databricks-datasets/hail/ hail/ hail用データ。サンプル、人口グループ、属性とVCF 構造化データ
dbfs:/databricks-datasets/identifying-campaign-effectiveness/ identifying-campaign-effectiveness/ SafeGraph FootTraffic Dataset 構造化データ
dbfs:/databricks-datasets/iot/ iot/ IoTセンサーデータ 構造化データ
dbfs:/databricks-datasets/iot-stream/ iot-stream/ IOT Device Data(合成) 構造化データ
dbfs:/databricks-datasets/learning-spark/ learning-spark/ 書籍Learning Sparkで使用されているデータセット さまざま
dbfs:/databricks-datasets/learning-spark-v2/ learning-spark-v2/ MnM Datasetなど さまざま
dbfs:/databricks-datasets/lending-club-loan-stats/ lending-club-loan-stats/ 融資データ 構造化データ
dbfs:/databricks-datasets/med-images/ med-images/ 病理画像 Camelyon16 Grand Challenge 画像
dbfs:/databricks-datasets/media/ media/ OpenRTB BidStream Sample Dataset 構造化データ
dbfs:/databricks-datasets/mnist-digits/ mnist-digits/ MNIST handwritten digits dataset 手書き数字データ 画像
dbfs:/databricks-datasets/news20.binary/ news20.binary/ 20 Newsgroups Dataset 2値分類 構造化データ
dbfs:/databricks-datasets/nyctaxi/ nyctaxi/ NYC Taxi Dataset タクシー乗降記録 構造化データ
dbfs:/databricks-datasets/nyctaxi-with-zipcodes/ nyctaxi-with-zipcodes/ NYC Taxi with Zipcodes Dataset 構造化データ
dbfs:/databricks-datasets/online_retail/ online_retail/ オンラインストアの注文データ 構造化データ
dbfs:/databricks-datasets/overlap-join/ overlap-join/ 不明 構造化データ
dbfs:/databricks-datasets/power-plant/ power-plant/ Combined Cycle Power Plant Data Set 電力プラントのデータ 構造化データ
dbfs:/databricks-datasets/retail-org/ retail-org/ Synthetic Retail Dataset 合成小売データ 構造化データ
dbfs:/databricks-datasets/rwe/ rwe/ Simulated Patient Data シミュレートした患者データ 構造化データ
dbfs:/databricks-datasets/sai-summit-2019-sf/ sai-summit-2019-sf/ Fire Calls-For-Service 消防署への電話記録 構造化データ
dbfs:/databricks-datasets/sample_logs/ sample_logs/ Webサーバーログのサンプル 準構造化データ
dbfs:/databricks-datasets/samples/ samples/ サンプルデータ さまざま
dbfs:/databricks-datasets/sfo_customer_survey/ sfo_customer_survey/ 2013 SFO Customer Survey Data Set + Dictionary 構造化データ
dbfs:/databricks-datasets/sms_spam_collection/ sms_spam_collection/ SMS Spam Collection テキスト
dbfs:/databricks-datasets/songs/ songs/ Sample of Million Song Dataset 構造化データ
dbfs:/databricks-datasets/structured-streaming/ structured-streaming/ 構造化ストリーミングのサンプルデータ 構造化データ
dbfs:/databricks-datasets/timeseries/ timeseries/ Fire Department Calls for Service 構造化データ
dbfs:/databricks-datasets/tpch/ tpch/ TPC-H Data 構造化データ
dbfs:/databricks-datasets/warmup/ warmup/ TCP-DS Data 構造化データ
dbfs:/databricks-datasets/weather/ weather/ Seattle Temperature Recordings Data Set 構造化データ
dbfs:/databricks-datasets/wiki/ wiki/ Wikipediaデータ テキスト
dbfs:/databricks-datasets/wikipedia-datasets/ wikipedia-datasets/ Wikipediaデータ テキスト、構造化データ
dbfs:/databricks-datasets/wine-quality/ wine-quality/ Wine Quality Data Set 構造化データ

COVID

Python
df = spark.read.option("header", True).csv("dbfs:/databricks-datasets/COVID/CORD-19/2021-03-28/metadata.csv")
display(df)

Screen Shot 2022-06-09 at 21.28.42.png

RDatasets

Python
df = spark.read.option("header", True).csv("dbfs:/databricks-datasets/Rdatasets/data-001/csv/ggplot2/diamonds.csv")
display(df)

Screen Shot 2022-06-09 at 21.29.29.png

adult

Python
df = spark.read.option("header", True).csv("dbfs:/databricks-datasets/adult/adult.data")
display(df)

Screen Shot 2022-06-09 at 21.30.06.png

airlines

Python
df = spark.read.option("header", True).csv("dbfs:/databricks-datasets/airlines/part-00000")
display(df)

Screen Shot 2022-06-09 at 21.30.54.png

amazon

Python
df = spark.read.format("parquet").option("header", True).load("dbfs:/databricks-datasets/amazon/data20K/")
display(df)

Screen Shot 2022-06-09 at 21.31.33.png

asa

Python
df = spark.read.option("header", True).csv("dbfs:/databricks-datasets/asa/airlines/1987.csv")
display(df)

Screen Shot 2022-06-09 at 21.32.10.png

atlas_higgs

Python
df = spark.read.option("header", True).csv("dbfs:/databricks-datasets/atlas_higgs/atlas_higgs.csv")
display(df)

Screen Shot 2022-06-09 at 21.32.47.png

bikeSharing

Python
df = spark.read.option("header", True).csv("dbfs:/databricks-datasets/bikeSharing/data-001/day.csv")
display(df)

Screen Shot 2022-06-09 at 21.33.22.png

cctvVideos

Python
df = spark.read.format("image").load("dbfs:/databricks-datasets/cctvVideos/train_images/")
display(df)

Screen Shot 2022-06-09 at 21.33.57.png

credit-card-fraud

Python
df = spark.read.format("parquet").option("header", True).load("dbfs:/databricks-datasets/credit-card-fraud/data/")
display(df)

Screen Shot 2022-06-09 at 21.34.28.png

cs100

Python
print(dbutils.fs.head("dbfs:/databricks-datasets/cs100/lab2/data-001/apache.access.log.PROJECT"))

Screen Shot 2022-06-09 at 21.34.59.png

cs110x

Python
df = spark.read.option("header", False).option("delimiter", "::").csv("dbfs:/databricks-datasets/cs110x/ml-1m/data-001/movies.dat")
display(df)

Screen Shot 2022-06-09 at 21.36.53.png

cs190

Python
df = spark.read.option("header", False).csv("dbfs:/databricks-datasets/cs190/data-001/millionsong.txt")
display(df)

Screen Shot 2022-06-09 at 21.37.28.png

data.gov

Python
df = spark.read.option("header", True).csv("dbfs:/databricks-datasets/data.gov/irs_zip_code_data/data-001/2013_soi_zipcode_agi.csv")
display(df)

Screen Shot 2022-06-09 at 21.38.24.png

definitive-guide

Python
df = spark.read.format("json").load("dbfs:/databricks-datasets/definitive-guide/data/activity-data/")
display(df)

Screen Shot 2022-06-09 at 21.38.56.png

delta-sharing

Python
print(dbutils.fs.head("dbfs:/databricks-datasets/delta-sharing/samples/README.md"))

Screen Shot 2022-06-09 at 21.39.31.png

flights

Python
df = spark.read.format("csv").option("header", True).load("dbfs:/databricks-datasets/flights/departuredelays.csv")
display(df)

Screen Shot 2022-06-09 at 21.39.58.png

flower_photos

Python
df = spark.read.format("image").load("dbfs:/databricks-datasets/flower_photos/daisy/")
display(df)

Screen Shot 2022-06-09 at 21.40.32.png

flowers

Python
df = spark.read.format("delta").load("dbfs:/databricks-datasets/flowers/delta/")
display(df)

Screen Shot 2022-06-09 at 21.41.09.png

genomics

Python
df = spark.read.format("parquet").load("dbfs:/databricks-datasets/genomics/1000G/dbgenomics.data/")
display(df)

Screen Shot 2022-06-09 at 21.41.54.png

hail

Python
print(dbutils.fs.head("dbfs:/databricks-datasets/hail/data-001/1kg_annotations.txt"))

Screen Shot 2022-06-09 at 21.42.26.png

identifying-campaign-effectiveness

Python
df = spark.read.format("csv").option("header", True).load("dbfs:/databricks-datasets/identifying-campaign-effectiveness/subway_foot_traffic/foot_traffic.csv")
display(df)

Screen Shot 2022-06-09 at 21.43.05.png

iot

Python
df = spark.read.format("json").load("dbfs:/databricks-datasets/iot/iot_devices.json")
display(df)

Screen Shot 2022-06-09 at 21.43.43.png

learning-spark

Python
df = spark.read.format("csv").load("dbfs:/databricks-datasets/learning-spark/data-001/favourite_animals.csv")
display(df)

Screen Shot 2022-06-09 at 21.45.56.png

learning-spark-v2

Python
df = spark.read.format("csv").option("header", True).load("dbfs:/databricks-datasets/learning-spark-v2/mnm_dataset.csv")
display(df)

Screen Shot 2022-06-09 at 21.46.31.png

lending-club-loan-stats

Python
df = spark.read.format("csv").option("header", True).load("dbfs:/databricks-datasets/lending-club-loan-stats/LoanStats_2018Q2.csv")
display(df)

Screen Shot 2022-06-09 at 21.47.01.png

med-images

Python
%pip install openslide-python
Python
WSI_TIF_PATH = "/databricks-datasets/med-images/camelyon16/"

import numpy as np
import openslide
import matplotlib.pyplot as plt

f, axarr = plt.subplots(1,4,sharey=True)
i=0
for pid in ["normal_034","normal_036","tumor_044", "tumor_045"]:
  path = '/dbfs/%s/%s.tif' %(WSI_TIF_PATH,pid)
  slide = openslide.OpenSlide(path)
  axarr[i].imshow(slide.get_thumbnail(np.array(slide.dimensions)//50))
  axarr[i].set_title(pid)
  i+=1
display()

Screen Shot 2022-06-09 at 21.47.54.png

media

Python
print(dbutils.fs.head("dbfs:/databricks-datasets/media/rtb/raw_incoming_bid_stream/bidRequestSample.txt"))

Screen Shot 2022-06-09 at 21.48.34.png

mnist-digits

Python
print(dbutils.fs.head("dbfs:/databricks-datasets/mnist-digits/README.md"))

Screen Shot 2022-06-09 at 21.49.06.png

news20.binary

Python
df = spark.read.format("parquet").load("dbfs:/databricks-datasets/news20.binary/data-001/training/")
display(df)

Screen Shot 2022-06-09 at 21.49.43.png

nyctaxi

Python
df = spark.read.format("json").load("dbfs:/databricks-datasets/nyctaxi/sample/json/")
display(df)

Screen Shot 2022-06-09 at 21.50.20.png

nyctaxi-with-zipcodes

Python
df = spark.read.format("delta").load("dbfs:/databricks-datasets/nyctaxi-with-zipcodes/subsampled/")
display(df)

Screen Shot 2022-06-09 at 21.51.11.png

online_retail

Python
df = spark.read.format("csv").option("header", True).load("dbfs:/databricks-datasets/online_retail/data-001/data.csv")
display(df)

Screen Shot 2022-06-09 at 21.51.39.png

overlap-join

Python
print(dbutils.fs.head("dbfs:/databricks-datasets/overlap-join"))

Screen Shot 2022-06-09 at 21.52.14.png

power-plant

Python
df = spark.read.format("csv").option("header", True).option("delimiter", "\t").load("dbfs:/databricks-datasets/power-plant/data/Sheet1.tsv")
display(df)

Screen Shot 2022-06-09 at 21.52.47.png

retail-org

Python
df = spark.read.format("parquet").load("dbfs:/databricks-datasets/retail-org/active_promotions/active_promotions.parquet")
display(df)

Screen Shot 2022-06-09 at 21.53.18.png

rwe

Python
df = spark.read.format("csv").option("header", True).option("delimiter", ",").load("dbfs:/databricks-datasets/rwe/ehr/csv/allergies.csv")
display(df)

Screen Shot 2022-06-09 at 21.53.50.png

sai-summit-2019-sf

Python
df = spark.read.format("csv").option("header", True).option("delimiter", ",").load("dbfs:/databricks-datasets/sai-summit-2019-sf/fire-calls.csv")
display(df)

Screen Shot 2022-06-09 at 21.54.21.png

sample_logs

Python
df = spark.read.format("csv").load("/databricks-datasets/sample_logs/")
display(df)

Screen Shot 2022-06-09 at 21.54.55.png

samples

Python
print(dbutils.fs.head("dbfs:/databricks-datasets/samples/data/mllib/gmm_data.txt"))

Screen Shot 2022-06-09 at 21.55.31.png

sfo_customer_survey

Python
df = spark.read.format("csv").option("header", True).load("dbfs:/databricks-datasets/sfo_customer_survey/2013_SFO_Customer_Survey.csv")
display(df)

Screen Shot 2022-06-09 at 21.56.07.png

sms_spam_collection

Python
df = spark.read.format("csv").option("header", False).load("dbfs:/databricks-datasets/sms_spam_collection/data-001/smsData.csv")
display(df)

Screen Shot 2022-06-09 at 21.56.38.png

songs

Python
df = spark.read.format("csv").option("header", False).option("delimiter", "\t").load("dbfs:/databricks-datasets/songs/data-001/part-00000")
display(df)

Screen Shot 2022-06-09 at 21.57.11.png

structured-streaming

Python
df = spark.read.format("json").load("dbfs:/databricks-datasets/structured-streaming/events/file-0.json")
display(df)

Screen Shot 2022-06-09 at 21.57.47.png

timeseries

Python
df = spark.read.format("csv").option("header", True).option("delimiter", ",").load("dbfs:/databricks-datasets/timeseries/Fires/Fire_Department_Calls_for_Service.csv")
display(df)

Screen Shot 2022-06-09 at 21.58.18.png

tpch

Python
print(dbutils.fs.head("dbfs:/databricks-datasets/tpch/README.md"))

Screen Shot 2022-06-09 at 21.58.52.png

warmup

Python
%fs
ls dbfs:/databricks-datasets/warmup/

Screen Shot 2022-06-09 at 21.59.22.png

weather

Python
df = spark.read.format("csv").option("header", True).option("delimiter", ",").load("dbfs:/databricks-datasets/weather/high_temps")
display(df)

Screen Shot 2022-06-09 at 21.59.52.png

wiki

Python
df = spark.read.format("csv").load("dbfs:/databricks-datasets/wiki/")
display(df)

Screen Shot 2022-06-09 at 22.00.33.png

wikipedia-datasets

Python
df = spark.read.format("json").load("dbfs:/databricks-datasets/wikipedia-datasets/data-001/clickstream/raw-uncompressed-json/")
display(df)

Screen Shot 2022-06-09 at 22.01.08.png

wine-quality

Python
df = spark.read.format("csv").option("header", True).option("delimiter", ";").load("dbfs:/databricks-datasets/wine-quality/winequality-red.csv")
display(df)

Screen Shot 2022-06-09 at 22.01.43.png

Databricks 無料トライアル

Databricks 無料トライアル

4
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
3