Databricks にて BigQuery から Spark コネクターにより Spark データフレームを作成する方法

Last updated at 2025-05-01Posted at 2025-05-01

概要

Databricks にて BigQuery から Spark コネクターにより Spark データフレームを作成する方法を共有します。

本記事は下記シリーズの一部です。

出所：Databricks で BigQuery のデータを取得する方法の徹底ガイド - Qiita

事前準備

BigQuery に対する認証情報を取得

下記の記事を参考に BigQuery に対する認証情報（キー）を取得してください。

BigQuery × Databricks ：サンドボックス環境と Databricks Community edition で始める無償で高速データ分析 #Python - Qiita

手順

1-1. 認証情報を変数にセット

json_str = b"""{json_key}"""

1-2. Google Cloud のプロジェクト ID を変数にセット

# プロジェクト ID を設定
parent_project_id = "axial-triode-XXXX"

1-2. Spark データフレームを作成

import base64

encoded_string = base64.b64encode(json_str).decode('utf-8')

# データ取得元のテーブル名を設定
table_name = "bigquery-public-data.google_analytics_sample.ga_sessions_20170801"

df = (
    spark.read
    .format("bigquery")
    .option("parentProject", parent_project_id)
    .option("credentials", encoded_string)
    .option("table",table_name)
    .load()
)

df.limit(50).display()

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up