DatabricksにおけるRツールキットbricksterを動かしてみる

Last updated at 2025-02-24Posted at 2025-02-24

こちらのツールキットの存在は知っていましたが、動かしたことがありませんでした。

こちらの記事を翻訳してみて、改めて動かしてみようと思いました。ちなみに、10年ほど前にデータ分析を始めた際に最初に触れた言語はRでした。データフレームに感動したものです。

CRANでも公開されているので、RStudioから簡単にインストールできます。

クイックスタート

まずは、こちらのクイックスタートを動かします。ここでは認証にパーソナルアクセストークンを使ってます。こちらにあるように、推奨はOAuth user-to-machine (U2M)認証です。

library(brickster)

# アクセス先のDatabricksワークスペースのホスト名、パーソナルアクセストークンを指定します
Sys.setenv(DATABRICKS_HOST = "https://xxxxxx.cloud.databricks.com/")
Sys.setenv(DATABRICKS_TOKEN = "dapi...")
Sys.setenv(DATABRICKS_WSID = "xxxxxx")

# すべてのSQLウェアハウスを一覧
warehouses <- db_sql_warehouse_list()

# ボリュームから`newly_confirmed_cases_daily.csv`を読み込む
file <- db_volume_read(
  path = "/Volumes/takaakiyayoi_catalog/japan_covid_analysis/covid_data/newly_confirmed_cases_daily.csv",
  tempfile(pattern = ".csv")
)
volume_csv <- readr::read_csv(file)

ウェアハウスがリストに格納されます。

CSVファイルの中身を参照できます。

次にこちらで紹介されていた機能を使ってみます。

open_workspace()

open_workspace()を用いることで、RStudioなどのIDEからDatabricksワークスペースにアクセス、資産をブラウズすることができます。

open_workspace()

Connectionタブにワークスペースの資産が表示されます。カタログ、モデルレジストリ、エクスペリメント、クラスター、SQLウェアハウスを参照できます。

カタログのテーブルや

機械学習モデルを確認できます。

db_repl()

Databricks REPL(db_repl())を用いることで、RコンソールからDatabricksクラスターに接続することができ、サポートされる言語をあたかもローカルで実行しているかのようにクラスターにインタラクティブに送信することができます。

使う際にはクラスターIDが必要です。起動していなくても、以下のコマンドを実行するとクラスターが起動します。

# REPLの起動
db_repl(cluster_id = "<insert cluster id>")

クラスターが起動するとプロンプトが変化します。以下にあるように[R]が使える状態になっています。

以下のコマンドはDatabricksクラスターで実行されています。

言語の切り替えはこちらにあるように:言語ショートカットを入力します。SQLに切り替えるには:sql、Pythonに切り替えるには:pyを入力します。

はじめてのDatabricks

Databricks無料トライアル

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up