Databricksソリューションアーキテクトの弥生です。
前回は私が使用したDatabricks学習コンテンツをシェアさせていただきましたが、こちらでは2020年の入社後、多くのお客様とのやりとりの中でいただいたご質問および回答をまとめました。
「Databricksって聞くけど、一体何なの?」と感じている方にとって、本書が一助になれば幸いです。
Databricksの概要
レイクハウスとは何ですか?
Databricksが提供するプラットフォームの名称です。Databricksが作った造語であり、由来は従来型データプラットフォームであるデータウェアハウスとデータレイクであり、両者の長所を兼ね備えたプラットフォームであるという意味を込めてレイクハウスとしています。
想定されるエンドユーザーは誰ですか?
データエンジニア、データサイエンティスト、SQLアナリスト、MLエンジニアなど機械学習/AIプロジェクトに関わる方すべてです。なお、SQL/Python/Rの知識を有している方を主たるユーザーとしていますが、最近ではシチズンデータサイエンティストの方向けの機能を提供するように機能を拡張しています。
日本語のドキュメントはありますか?
鋭意準備中です。以下のドキュメントもご活用ください。
なお、最近GUIが日本語に対応しました。
どのようなアーキテクチャですか?
Databricksはコントロールプレーンとデータプレーンから構成されています。
コントロールプレーンには、DatabricksのAWSアカウント上でDatabricksが管理するバックエンドサービスが含まれます。あなたが実行する全てのコマンド(ノートブックのセル)は、完全に暗号化された状態でコントロールプレーンに存在することになります。保存されたコマンドはデータプレーンに格納されます。
データプレーンはあなたのAWSアカウントで管理され、あなたのデータが格納される場所になります。また、ここでデータが処理されます。この図では、既にデータがDatabricksに登録されていることを仮定していますが、イベントデータ、ストリーミングデータ、IoTデータなど外部のデータソースからデータを取り込むことが可能です。Databricksコネクターを用いることで、あなたのAWSアカウント外の外部データソースにも接続することができます。
あなたのデータは常に、データプレーンのあなたのAWSアカウントに存在します。このため、あなたのデータがロックインされることなく、常にフルコントロール、オーナーシップを維持することができます。
機能
Delta Lakeとは何ですか?
上述したレイクハウスの根幹とも呼べるコンポーネントがDelta Lakeです。Delta Lakeはデータレイクの抱える課題を解決するために、データウェアハウスで培われた技術をデータレイクに提供します。
- データウェアハウスでは当たり前のACIDトランザクションをデータレイクで実現することで、データが不完全な状態になることを回避します。
- データベースで当たり前のスキーマ適用を行うことで、スキーマに合致しないデータの流入を防ぎます。
- データベースで培われたインデックス、パーティショニングをデータレイク上で実現することで、大規模データに対する高速な処理を実現します。
Sparkとは何ですか?
Databricksの創業者が開発した分散処理フレームワークです。Databricksにおける処理エンジンとなっています。Sparkを活用することで、大量データに対するETL処理、機械学習、BIを高速に実施することが可能となります。
MLflowとは何ですか?
エンドツーエンドの機械学習モデル管理をサポートするソフトウェアです。トレーニングされたモデルを自動でトラッキングし、本格運用としてモデルを簡単にデプロイすることが可能となります。
Databricksでファイルはどの様に管理されますか?
Databricksで取り扱うファイルは、Databricksのワークスペースを構築する際に指定した(1)S3バケット(DBFSルートバケットと呼ばれます)に格納されます。加えて、稼働しているクラスターの(2)ローカルストレージにファイルを保存することができますが、こちらはクラスターが停止すると全て失われます。
データベースの様な使い方はできますか?
できます。Hiveメタストアにデータを登録することでSQLベースでのデータ操作が可能となります。
matplotlib/seabornなどを用いて可視化を行うことができますか?
できます。さらにはビルトインの可視化機能を用いてお手軽にグラフを作成することができます。
画像データを取り扱うことはできますか?
できます。専用のデータソースを活用することで、画像サムネイルを簡単に参照することもできます。
テキストデータを取り扱うことはできますか?
できます。Sparkを活用することで、大量テキストデータを高速に処理することも可能です。
Githubと連携できますか?
できます。Reposをご活用ください。
VSCodeなどのIDEをローカルで使いたいのですが
Databricks Connectを使うことでIDEからDatabricksクラスターを利用いただけます。
Databricksの導入
AWSでDatabricksを導入したいのですがどうしたら良いですか?
以下の手順に従って環境を導入ください。複雑な構成が必要な場合にはDatabricksまでご連絡ください。導入をサポートします。
AzureでDatabricksを導入したいのですがどうしたら良いですか?
マーケットプレースから導入してください。
GCPででDatabricksを導入したいのですがどうしたら良いですか?
マーケットプレースから導入してください。
ソリューションアクセラレータ
ソリューションアクセラレータとは何ですか?
Databricksがお客様との共創を通じて生み出したソリューションを他の会社の方でも利用できる様にインターネットに公開しているサンプルノートブックと説明資料(ブログ記事)です。
ソリューションアクセラレータは有償ですか?
いいえ、すべて無料です。
セキュリティ
Databricksでユーザーはどの様に管理されますか?
ユーザー、グループ単位で管理されます。アイデンティティプロバイダーと連携したシングルサインオンもサポートしています。
Databricks上のオブジェクト(ノートブック、フォルダなど)のセキュリティはどうなっていますか?
ロールベースのアクセス権管理が可能です。
閉域網で環境を構築したいのですがどうしたら良いですか?
AWSであればPrivateLinkを活用して閉域網で環境を構築することができます。
データベースのテーブルの行列レベルでアクセス制御を行うことはできますか?
できます。テーブルアクセスコントロールを有効化したクラスターを使用してください。
クラウドストレージ上のファイルに対するアクセス制御を行うことはできますか?
できます。インスタンスプロファイル、あるいはIAMクレディンシャルパススルーをクラスターに設定してください。
ユーザーの操作履歴など監査ログを記録することはできますか?
はい、監査ログの設定をしていただくことでDatabricks上のユーザーの操作を記録することができます。
アクセストークン、パスワードなど機密性の高い情報をノートブックに記載したくないのですがどうしたら良いですか?
シークレットに格納してください。
価格
価格体系はどうなっていますか?
従量課金と年額事前契約があります。前者はクレジットカードの登録が必要となります。後者はプロフェッショナルサービスによるサポート、ディスカウントのメリットがあります。
どの様なケースでDatabricksの課金が発生しますか?
クラスターが起動している期間のみDBU(Databricks Unit)に基づく課金が発生します。クラスターを起動しなければ、Databricksからの課金は発生しません。なお、インスタンス、ネットワーク、ストレージなどクラウドプロバイダーの課金が別途発生します。
無償で機能を試すことはできますか?
できます。機能制限のあるDatabricks Community Editionあるいは、2週間のフリートライアル期間でフル機能を試していただくことが可能です。
運用
毎回クラスターを停止する必要がありますか?
いいえ、自動停止(Auto Termination)の設定をしていただければ、クラスターが利用されていない状態が一定期間継続した場合に自動で停止されます。
どのようにクラスターを設定したら良いのでしょうか?
ベストプラクティスを参照してください。
定期的に処理を実行したいのですが
ジョブを活用ください。
メリット
リモートワーク主体になっているのですがDatabricksは使えますか?
使えます。むしろ、各種コラボレーション機能はリモートワークのシーンにおいて威力を発揮します。
人的リソースが少ないのですがDatabricksは使えますか?
SaaSで提供されるDatabricksでは、インフラ管理の工数を劇的に引き下げることができます。1名の管理者で複数部門にサービスを提供した事例もあります。また、分析者はコラボレーション機能、プロジェクト管理機能を活用することで、少ない分析者リソースであっても複数のAIプロジェクトを回すことができます。
Jupyter Notebookを使っているのにDatabricksを利用するメリットはありますか?
たくさんあります。