1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

Pandas API on Spark | Databricks on AWS [2021/9/30時点]の翻訳です。

Databricksクイックスタートガイドのコンテンツです。

注意
この機能はDatabricks Runtime 10.0、および、Databricks Runtime 10.0 Photon以降で利用できます。Databricks Runtime 9.1 LTS、および、Databricks Runtime 9.1 LTS Photon以前のクラスターでは、Koalasを使用してください。

データサイエンティストには幅広く使用されているpandasは、Pythonプログラミング言語において利用しやすいデータ構造とデータ分析ツールを提供するPythonパッケージです。しかし、pandasはビッグデータにスケールしません。SparkにおけるPandas APIはApache Sparkで動作するpandasと同等のAPIを提供することで、このギャップを埋めます。Sparkのpandas APIは、PySparkデータフレームからデータを直接プロットするなど、PySparkでは行うのが難しい数多くのタスクをサポートするので、pandasのユーザーだけではなくPySparkのユーザーにもメリットがあります。

要件

SparkのPandas APIはApache Spark 3.2以降(Databricks Runtime 10.0、あるいはDatabricks Runtime 10.0 Photon以降に含まれています)で、以下のimport文を用いることで利用できます。

Python
import pyspark.pandas as ps

ノートブック

リソース

Databricks 無料トライアル

Databricks 無料トライアル

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?