Apache Spark on Databricks | Databricks on AWS [2022/10/25時点]の翻訳です。
本書は抄訳であり内容の正確性を保証するものではありません。正確な内容に関しては原文を参照ください。
本書では、Apache SparkとDatabricks、Databricksレイクハウスプラットフォームがどのような関係にあるのかを説明します。
Apache Sparkは、Databricksレイクハウスプラットフォームの心臓であり、プラットフォームの計算クラスターとSQLウェアハウスを強化するテクノロジーです。DatabricksはApache Sparkに最適化されたプラットフォームであり、Apache Sparkのワークロードを実行するための効率的かつシンプルなプラットフォームを提供します。
Apache SparkとDatabricksはどのような関係ですか?
Databricksという会社はApache Sparkのオリジナルクリエイターによって創業されました。Apache SparkはオープンソースソフトウェアプロジェクトとしてDatabricksを含む数多くのトップカンパニーからのコミッターを有しています。
Databricksでは、Apache Sparkの開発と機能のリリースを継続しています。Databricksランタイムには、更なる最適化とApache Sparkをベースとした専用の機能や、C++で再構築された最適化バージョンのApache SparkであるPhotonを含む拡張版Apache Sparkが含まれています。
Apache SparkはDatabricks上でどのように動作するのですか?
Databricks上でコンピュートクラスターやSQLウェアハウスをデプロイする際には常に、仮想マシンにApache Sparkが設定されデプロイされます。Databricksによって管理されているので、SparkコンテキストやSparkセッションの設定や初期化を機にする必要はありません。
Apache Sparkを使うことなしにDatabricksを使うことはできますか?
Databricksでは数多くのワークロードをサポートしており、Databricksランタイム内には多数のオープンソースライブラリが含まれています。Databrikcs SQLは内部ではApache Sparkを使用していますが、エンドユーザーはデータベースオブジェクトにクエリーするために標準的なSQL構文を使用します。
Databricks機械学習ランタイムはMLのワークロードに最適化されており、多くのデータサイエンティストがDatabricksで作業する際に、TensorFlow やSciKit Learnのような主要なオープンソースライブラリを使用しています。Databricksによってデプロイ、管理されている計算リソースに対して任意のワークロードをスケジュールするためにワークフローを活用することができます。
なぜDatabricksではApache Sparkを使っているのですか?
Databricksレイクハウスプラットフォームは、皆さまのビジネスをスケールさせるエンタープライズソリューションを開発、デプロイするためのセキュアかつコラボレーティブな環境を提供します。Databricksの従業員の多くは、Apache Sparkについて最も知識を持っているメンテナーであり、世界中のユーザーでもあります。我々はユーザーの皆様がApache Sparkが稼働する最速の環境を利用できる様に、継続的に新たな最適化を開発し、リリースし続けています。