Pandas API on Spark | Databricks on AWS [2021/9/30時点]の翻訳です。
Databricksクイックスタートガイドのコンテンツです。
注意
この機能はDatabricks Runtime 10.0、および、Databricks Runtime 10.0 Photon以降で利用できます。Databricks Runtime 9.1 LTS、および、Databricks Runtime 9.1 LTS Photon以前のクラスターでは、Koalasを使用してください。
データサイエンティストには幅広く使用されているpandasは、Pythonプログラミング言語において利用しやすいデータ構造とデータ分析ツールを提供するPythonパッケージです。しかし、pandasはビッグデータにスケールしません。SparkにおけるPandas APIはApache Sparkで動作するpandasと同等のAPIを提供することで、このギャップを埋めます。Sparkのpandas APIは、PySparkデータフレームからデータを直接プロットするなど、PySparkでは行うのが難しい数多くのタスクをサポートするので、pandasのユーザーだけではなくPySparkのユーザーにもメリットがあります。
要件
SparkのPandas APIはApache Spark 3.2以降(Databricks Runtime 10.0、あるいはDatabricks Runtime 10.0 Photon以降に含まれています)で、以下のimport
文を用いることで利用できます。
import pyspark.pandas as ps
ノートブック
リソース
- Apache SparkウェブサイトのSparkのPandas APIのドキュメント
- Apache SparkウェブサイトにあるMigrating from Koalas to pandas API on Spark