R You Ready? Unlocking Databricks for R Users in 2025 | Databricks Blogの翻訳です。
サマリー
- 基本的なコンセプト、チュートリアル、プラットフォームにおけるShinyアプリの操作のような行動なトピックをカバーするR開発者向けの包括的なDatabricksガイド。
- Databricks REST APIラッパー、ユーティリティ関数、ワークフローを改善するためのRStudio連携を提供するCRANのbricksterパッケージ。
- Databricksにおけるデータの操作やAIモデルのインタラクションを改善するためのodbc、sparklyr、mall、pins、orbital、chattr、ellmer、palのようなパッケージを含むエコシステムサポートの拡張。
新年を迎えるにあたり、DatabricksにおけるRユーザーに新たなリソースを発表できることを嬉しく思っています: 包括的な開発者ガイド、CRANでのbricksterのリリース、SparkRからsparklyrへの移行ガイド、R絵おこシステムにおけるDatabricksのサポートの拡大 - 特にPositとの強力かつ継続的なパートナーシップによって生成AIに対する拡大が含まれます。
R開発者向けDatabricksガイド
Rユーザーに対して、R開発者向けDatabricksガイドを作成しました。このガイドは、Databricksで通常のRワークフローをどのように実行するのか、プラットフォームの機能を用いてどのようにスケールさせるのかに関する手順を提供します。管理者向けには、Rユーザーの要件と嗜好に合わせて、セキュアでコスト効率の高いインフラストラクチャの管理に関するベストプラクティスを提供します。
今ガイドは、Databricksデータインテリジェンスプラットフォームの基本的なコンセプトとアーキテクチャからスタートして、これらのコンセプトを実践するためのハンズオンに続くように、システマティックに構成されています。Databricksコードエディタ、RStudio、Positron、VS CodeのようなIDEにおける開発環境のセットアップに関する詳細な手順、開発者ツールやパッケージ管理に関するセクションを提供しています。次に、Apache Spark™とDatabricksワークフローを用いたRコードのスケーリングを探索します。このガイドは、DatabricksにおけるShinyアプリの操作のような高度なトピックで締め括られます。
brickster
bricksterはR開発者によるR開発者向けに開発されたRパッケージです - これがCRANで公開されました!
brickster
は、Databricksワークフロー、ファイルシステムの操作、クラスター管理のようなRユーザーが非常に興味を持っているDatabricks REST APIをラッピングします。RStudioとのインテグレーション、ユーティリティ関数も提供しているので、あなたはDatabricksを活用できるようになります。それぞれの関数の例と、ジョブの自動化やクラスター管理に関する説明も文書化されています。
brickster
によって、RStudioにDatabricksの機能を提供できるのかに関する2つの例を考えてみましょう。open_workspace()
によって、RStudioのコネクションペインから直接Databricksワークスペースをブラウズできるようになります:
次に、最も没入的な開発者体験のために、db_repl()
をチェックします。これは、あなたの好きな言語でDatabricksでリモートで全ての実行されるローカルのREPL(read-eval-print loop)を作成します。
ルーキーやパワーユーザーであろうとも、IDEからDatabricksを操作する際にはbrickster
を試してみましょう。その価値があります。
SparkRは非推奨に、sparklyrへの移行ガイド
SparkR
とsparklyr
はどちらともApache Spark™で動作するように設計されたRパッケージですが、デザイン、構文、広範なRエコシステムとのインテグレーションで大きく異なっています。この複雑性は、Sparkに初めて触れるRユーザーに混乱をもたらしていたので、Apache Spark™ 4.x以降では、SparkR
は非推奨になり、sparklyr
が唯一の推奨パッケージになります。コード移行を支援するために、多数の固有の関数マッピングを含む、それぞれのパッケージの違いを説明する別のガイドを作成しました。
こちらのGitHubでガイドを参照することができます。
RエコシステムにおけるDatabricksサポート
bricksterに加えて、より広範なRエコシステムはDatabricksにおけるサポートを拡大しています。
パッケージ | Databricksのサポート |
---|---|
odbc | SQLウェアハウスへの接続をシンプルにする新たなodbc::databricks()関数(詳細はこちら)。 |
sparklyr |
Databricks Connect V2で動作、Spark 4.0ではSparkRが非推奨となり、sparklyr がRにおけるSpark活用の主要なパッケージとなります。 |
mall | RからDatabricks SQLのAI関数を呼び出せるようになります。使用例はこちら。 |
pins | pinを用いたUCボリューム!。pinsパッケージとのシームレスな連携。 |
orbital | Sparkデータフレームでのtidymodelsのpredictionsの実行。 |
chattr | Databricks基盤モデルAPIのサポートを追加(詳細はこちら)。 |
ellmer | Databricksでホストされている基盤モデル、AIゲートウェイ経由で利用できるモデルによるチャットのシンプルなインタフェース。 |
pal | 繰り返しで自動化が困難なタスクをクイックに完了する助けとなるように設計されたエルゴノミックLLMアシスタントのライブラリを提供。ellmer でサポートされている全てのモデルはpal でもサポートされます。(GitHub) |
次に来るのは
新年を迎えるにあたり、DatabricksにおけるRユーザーの未来はかつてないほどに輝いています。包括的なR開発者ガイドのリリース、パワフルなbricksterパッケージの導入DatabricksをサポートするRツールのエコシステムの拡大位によって、プラットフォーム上であなたのデータ&AIの作業を探索、構築、スケールを行うには格好のタイミングです。我々は特に、DatabricksにおけるRエコシステムの継続的なサポートをしてくれているPositに感謝の意を表します - 向こう数ヶ月ではこのパートナーシップによってさらに素晴らしいものを見ることになるでしょう。生産的で革新的な新年に乾杯。