Databricksでは、皆様が無料でDatabricksの機能を体感いただける環境として、無料のCommunity Editionをご利用いただけます。
Community Editionの使い方に関しては、IBJP: Community Editionで始めるDatabricks - Databricksをご覧ください。
上の記事にもあります様に、完全版のDatabricksとは機能レベルでは以下の違いがあります。
クラスター
- 作成できるクラスターは15GB RAM、2 Core CPUのシングルノードのみです。
- 停止したクラスターを再度起動することができないので、削除した後で改めてクラスターを作成する必要があります。
- クラスターのリージョンはus-westのみとなります。
- Databricksクラスターの設定に記載されている設定に関して、Community Editionで設定できるのは、インスタンスを起動するアベイラビリティゾーンと、Spark Config、環境変数のみとなります。
ユーザー
- ワークスペースに追加できるユーザー数は最大3名までとなります。
ファイルシステム
完全版のDatabricksでは、ドライバーノードのローカルファイルシステムにDBFS(Databricks File System)が/dbfs/
にマウントされていますが、Community Editionではマウントされていません。このため、以下のPythonスクリプトは完全版のDatabricksでは動作しますが、Community Editionではエラーとなります。
Python
import pandas as pd
df = pd.read_json('/dbfs/Users/takaaki.yayoi@databricks.com/Pete2.txt', lines=True)
ワークアラウンドとしては、以下の様に一度ローカルファイルシステムにファイルをコピーすることになります。
Python
import pandas as pd
dbutils.fs.cp('/Users/takaaki.yayoi@databricks.com/Pete2.txt', 'file:/tmp/Pete2.txt')
df = pd.read_json("/tmp/Pete2.txt", lines=True)
使用できない機能
- ジョブのスケジュール機能
- クラスターのオートスケーリング機能
- Git連携(Repos)
- MLflowの一部モデル管理機能(モデルレジストリ、RESTサービング)
- 特徴量ストア
- REST APIによるワークスペースの制御
- セキュリティ、ロールベースのアクセス制御、監査、シングルサインオン
- Databricks SQL