More than 3 years have passed since last update.

SparkにおけるPandas API

Last updated at 2021-10-26Posted at 2021-10-26

Pandas API on Spark | Databricks on AWS [2021/9/30時点]の翻訳です。

Databricksクイックスタートガイドのコンテンツです。

注意
この機能はDatabricks Runtime 10.0、および、Databricks Runtime 10.0 Photon以降で利用できます。Databricks Runtime 9.1 LTS、および、Databricks Runtime 9.1 LTS Photon以前のクラスターでは、Koalasを使用してください。

データサイエンティストには幅広く使用されているpandasは、Pythonプログラミング言語において利用しやすいデータ構造とデータ分析ツールを提供するPythonパッケージです。しかし、pandasはビッグデータにスケールしません。SparkにおけるPandas APIはApache Sparkで動作するpandasと同等のAPIを提供することで、このギャップを埋めます。Sparkのpandas APIは、PySparkデータフレームからデータを直接プロットするなど、PySparkでは行うのが難しい数多くのタスクをサポートするので、pandasのユーザーだけではなくPySparkのユーザーにもメリットがあります。

要件

SparkのPandas APIはApache Spark 3.2以降(Databricks Runtime 10.0、あるいはDatabricks Runtime 10.0 Photon以降に含まれています)で、以下のimport文を用いることで利用できます。

Python

import pyspark.pandas as ps

ノートブック

リソース

Apache SparkウェブサイトのSparkのPandas APIのドキュメント
Apache SparkウェブサイトにあるMigrating from Koalas to pandas API on Spark

Databricks 無料トライアル

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up