Databricks on Google Cloud: Public Preview feature list | Databricks on Google Cloud [2021/4/20時点]の翻訳です。
Google Cloud上のDatabricksにおいては、パブリックプレビューの期間、利用できない機能がいくつか存在します。本記事では、利用可能な機能と、現時点ではサポートされて居ない機能の一覧を説明します。詳細なリリースノートに関しては、Platform release notesを参照ください。
本リリースで提供される機能
以下の一覧には、Google CloudのDatabricksランタイムに含まれる主要な機能が含まれています。
機能 | 説明及びリンク |
---|---|
Databricks Runtime | 7.3 LTS以降、これにはMLランタイムも含まれます。詳細はDatabricks runtime releasesを参照ください。 |
Apache Spark | Spark 3のみとなります。 |
Optimized Delta Lake | Delta Lakeはデータレイクに信頼性をもたらすオープンソースストレージレイヤーです。詳細はDelta Lake and Delta Engine guideを参照ください。 |
Cluster Autopilot | クラスターのオートスケーリング設定です。Configure clustersを参照ください。 |
Jobs scheduling and workflow | ジョブによって、ノートブックやJARを定期実行することができます。Jobsをご覧ください。 |
Notebooks and collaboration | ノートブックはコードや可視化処理、テキストを含めることができるWebインタフェースです。Notebooksをご覧ください。 |
Optimized autoscaling | オートスケーリングは、リソースの利用量を最適化するためにワークロードの量に応じてワーカーノードを自動で増減します。Cluster size and autoscalingを参照ください。 |
Admin console | ワークスペース管理者が使用するコンソールです。Administration guideを参照ください。 |
Single sign-on (SSO) | OpenIDに準拠したGoogle’s OAuth 2.0 implementationを用いて、Google Cloud Identityアカウント(あるいはGSuiteアカウント)による認証が可能です。Single sign-onを参照ください。 |
Role-based access control | Databricksでは、ワークスペースオブジェクト(フォルダー、ノートブック、エクスペリメント、モデル)、クラスター、プール、ジョブに対してアクセスコントロールリスト(ACL)を定義することが可能です。Access controlを参照ください。 重要! 本リリースではテーブルのアクセスコントロールとシークレットのアクセスコントロールはサポートされていません。 |
Token management | Databricks REST APIを認証する際に、パーソナルアクセストークンを作成することができます。ワークスペース管理者はトークンの利用モニタリング、アクセスコントロール、ライフタイムの設定を行うことができます。Manage personal access tokensをご覧ください。 |
Google Kubernetes Engine (GKE) data plane | ワークスペースのためのワーカーネットワーク環境を含むGoogle Cloud VPC、サブネットがお客様のアカウントに作成されます。ワークスペース内の全てのDatabricksランタイムクラスターはプライベート、リージョナルなGoogle Kubernetes Engine (GKE)内で起動されます。GKEはKubernetesのマネージドサービスです。GKEを参照ください。 |
Integration with Google Cloud Identity | OpenIDに準拠したGoogle’s OAuth 2.0 implementationを用いて、Google Cloud Identityアカウント(あるいはGSuiteアカウント)による認証が可能です。Single sign-onを参照ください。 |
BigQuery connector | Databricks上でGoogle BigQueryのテーブルに対して読み書きを行うことができます。Google BigQueryを参照ください。 |
Google Cloud Storage connector (DBFS and direct) | Google Cloud Storage(GCS)バケットに対して、Databricks File System (DBFS)経由、あるいはgs: URL経由で直接読み書きを行うことができます。Google Cloud Storageを参照ください。 |
MLflow | MLflowはエンドツーエンドの機械学習ライフサイクルを管理するオープンソースのプラットフォームです。マネージドMLflowのサポートは、2021/3/22に追加され、Databricksランタイム8.1以降で利用できます。モデルサービングの機能は本リリースでは含まれていません。 |
パブリックプレビューでサポートされない主要な機能
全般:
- Deltaキャッシュを含む特定のDelta Lakeの機能
- モデルサービングを含む特定のマネージドMLflowの機能
- 特定のパートナーインテグレーション
- HIPAAへの準拠
- SQL Analytics (プレビュー)
- Databricks Runtime for Genomics (代わりに、標準のDatabricksランタイムにGenomicsのライブラリをインストールします)
アカウント:
- アカウントコンソールにおける課金情報の可視化
- GCSバケットへの課金情報の出力
- APIによるワークスペース管理
ワークスペース:
- 監査ログ
- グローバルなinit script
- テーブル ACL/SQL ACL
- カスタマーマネージドなVPC
- セキュアなクラスター接続 (no public IPs)
- カスタマーマネージドな暗号化キー
- IPアクセスリスト
ノートブック:
- ノートブック、クラスターUIへのSpark UIの統合
- Jupyter notebooks
- ローカルファイルシステムへのDBFSアクセス (FUSE mount)
注意
DBFSアクセスに関しては、Databricksのdbutils
コマンド、%fs
コマンドのようなHadoopファイルシステムAPI、Sparkのread/write APIを利用することができます。質問がある場合にはDatabricks窓口にお問い合わせください。
クラスター:
- ストレージのオートスケーリング
- クラスターポリシー
- クレディンシャルパススルー
- シングルノードクラスターモード
- GPU対応クラスター
- コンテナーサービス (自身のコンテナーの持ち込み)
- クラスターログデリバリー
- クラスターレベルのタグ
- クラスターSSH
- ローカルSSD
インテグレーション:
- CLIサポート
- Tableauコネクター (with PAT tokens)
- R Studio Server
- Databricks Connect
本リリースに含まれない主要なAPI:
- Account API
- Cluster Policies API
- DBFS API
- Global Init Script API
- Instance Pools API
- IP Access List API
Apache Spark 3.0をサポートしないサードパーティデータソース:
- Couchbase
- ElasticSearch
- Neo4j
- Redis
- Riak Time Series
- Cosmos DB
既知の問題
- 使用したことのないインスタンスタイプのクラスターを最初に起動する際には、起動が遅くなる場合があります。これは、特に作成直後のワークスペースで生じる可能性があります。
- Databricksはワークスペースのデプロイに用いたのと同じプロジェクトのサービスアカウントのみをサポートしています。
- Google Cloudオーガニゼーションレベルにおいて、ドメインによってアイデンティティを制限する際にGoogleオーガニゼーショナルプリシーを使う場合には、デプロイの前にDatabricksの窓口にお問い合わせください。
- ワークスペース当たり最大256クラスターの実行をサポートしています。
- GCPのクラスターイベントログに“Attempting to resize cluster to its target of ‘’ workers”と言うメッセージが表示される場合がありますが、これは予測される振る舞いです。要求されたワーカーの50%が利用可能になった後に、クラスターは"running"とマークされます。一時的に、要求より少ない数のワーカーが稼働することになったとしても、ノートブックやApache Sparkのコマンドの実行を妨げることは通常ありません。
- ワークスペースを削除した際には、Databricksが作成した二つのGCSバケットが空でない場合、これらは自動で削除されません。ワークスペース削除後に、当該プロジェクトのGoogle Cloudコンソールから手動で削除できます。
https://console.cloud.google.com/storage/browser?project=<project-id>
にアクセスしてください。<project-id>
はあなたのプロジェクトIDです。 - MavenのライブラリはDatabricks Runtime 8.1以降でのみサポートされています。