Databricks Community EditionはDatabricksと何が違うのか？

Posted at 2021-11-02

Databricksでは、皆様が無料でDatabricksの機能を体感いただける環境として、無料のCommunity Editionをご利用いただけます。

Community Editionの使い方に関しては、IBJP: Community Editionで始めるDatabricks - Databricksをご覧ください。

上の記事にもあります様に、完全版のDatabricksとは機能レベルでは以下の違いがあります。

クラスター

作成できるクラスターは15GB RAM、2 Core CPUのシングルノードのみです。
停止したクラスターを再度起動することができないので、削除した後で改めてクラスターを作成する必要があります。
クラスターのリージョンはus-westのみとなります。
Databricksクラスターの設定に記載されている設定に関して、Community Editionで設定できるのは、インスタンスを起動するアベイラビリティゾーンと、Spark Config、環境変数のみとなります。

ユーザー

ワークスペースに追加できるユーザー数は最大3名までとなります。

ファイルシステム

完全版のDatabricksでは、ドライバーノードのローカルファイルシステムにDBFS(Databricks File System)が/dbfs/にマウントされていますが、Community Editionではマウントされていません。このため、以下のPythonスクリプトは完全版のDatabricksでは動作しますが、Community Editionではエラーとなります。

Python

import pandas as pd
df = pd.read_json('/dbfs/Users/takaaki.yayoi@databricks.com/Pete2.txt', lines=True)

ワークアラウンドとしては、以下の様に一度ローカルファイルシステムにファイルをコピーすることになります。

Python

import pandas as pd
dbutils.fs.cp('/Users/takaaki.yayoi@databricks.com/Pete2.txt', 'file:/tmp/Pete2.txt')
df = pd.read_json("/tmp/Pete2.txt", lines=True)

使用できない機能

ジョブのスケジュール機能
クラスターのオートスケーリング機能
Git連携(Repos)
MLflowの一部モデル管理機能(モデルレジストリ、RESTサービング)
特徴量ストア
REST APIによるワークスペースの制御
セキュリティ、ロールベースのアクセス制御、監査、シングルサインオン
Databricks SQL

Databricks 無料トライアル

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up