こちらのツールキットの存在は知っていましたが、動かしたことがありませんでした。
こちらの記事を翻訳してみて、改めて動かしてみようと思いました。ちなみに、10年ほど前にデータ分析を始めた際に最初に触れた言語はRでした。データフレームに感動したものです。
CRANでも公開されているので、RStudioから簡単にインストールできます。
クイックスタート
まずは、こちらのクイックスタートを動かします。ここでは認証にパーソナルアクセストークンを使ってます。こちらにあるように、推奨はOAuth user-to-machine (U2M)認証です。
library(brickster)
# アクセス先のDatabricksワークスペースのホスト名、パーソナルアクセストークンを指定します
Sys.setenv(DATABRICKS_HOST = "https://xxxxxx.cloud.databricks.com/")
Sys.setenv(DATABRICKS_TOKEN = "dapi...")
Sys.setenv(DATABRICKS_WSID = "xxxxxx")
# すべてのSQLウェアハウスを一覧
warehouses <- db_sql_warehouse_list()
# ボリュームから`newly_confirmed_cases_daily.csv`を読み込む
file <- db_volume_read(
path = "/Volumes/takaakiyayoi_catalog/japan_covid_analysis/covid_data/newly_confirmed_cases_daily.csv",
tempfile(pattern = ".csv")
)
volume_csv <- readr::read_csv(file)
ウェアハウスがリストに格納されます。
CSVファイルの中身を参照できます。
次にこちらで紹介されていた機能を使ってみます。
open_workspace()
open_workspace()を用いることで、RStudioなどのIDEからDatabricksワークスペースにアクセス、資産をブラウズすることができます。
open_workspace()
Connectionタブにワークスペースの資産が表示されます。カタログ、モデルレジストリ、エクスペリメント、クラスター、SQLウェアハウスを参照できます。
カタログのテーブルや
機械学習モデルを確認できます。
db_repl()
Databricks REPL(db_repl())を用いることで、RコンソールからDatabricksクラスターに接続することができ、サポートされる言語をあたかもローカルで実行しているかのようにクラスターにインタラクティブに送信することができます。
使う際にはクラスターIDが必要です。起動していなくても、以下のコマンドを実行するとクラスターが起動します。
# REPLの起動
db_repl(cluster_id = "<insert cluster id>")
クラスターが起動するとプロンプトが変化します。以下にあるように[R]
が使える状態になっています。
以下のコマンドはDatabricksクラスターで実行されています。
言語の切り替えはこちらにあるように:言語ショートカット
を入力します。SQLに切り替えるには:sql
、Pythonに切り替えるには:py
を入力します。