Koalas | Databricks on AWS [2021/4/15時点]の翻訳です。
Koalasは、pandasの補完材を提供するオープンソースプロジェクトです。主にデータサイエンティストによって用いられるpandasは、簡単に使えるデータ構造とPython言語向けのデータ分析ツールを提供するPythonのパッケージです。しかし、pandasは大量データに対してスケールしません。KoalasはApache Sparkで動作するpandasと同等のAPIを提供することでこのギャップを埋めます。Koalasはpandasユーザーにとって有益であるだけではなく、Koalasは例えばPySparkデータフレームから直接データをプロットするなど、PySparkで実行するのが困難なタスクをサポートするので、PySparkユーザーにも役立ちます。
要件
- KoalasはDatabricksランタイム7.3以上が稼働するクラスターに含まれています。
- Databricksランタイム7.0以下でKoalasを使用するには、DatabricksのPyPI libraryとしてKoalasをインストールします。
- IDE、ノートブックサーバー、Databricksクラスターに接続する他のカスタムアプリケーションででKoalasを使用するには、Databricks Connectをインストールし、Koalas installation instructionsに従ってください。
ノートブック
以下のノートブックでは、どのようにpandasからKoalasに移行するのかを説明しています。