LoginSignup
0
0

More than 3 years have passed since last update.

Koalasのご紹介

Last updated at Posted at 2021-04-20

Koalas | Databricks on AWS [2021/4/15時点]の翻訳です。

Koalasは、pandasの補完材を提供するオープンソースプロジェクトです。主にデータサイエンティストによって用いられるpandasは、簡単に使えるデータ構造とPython言語向けのデータ分析ツールを提供するPythonのパッケージです。しかし、pandasは大量データに対してスケールしません。KoalasはApache Sparkで動作するpandasと同等のAPIを提供することでこのギャップを埋めます。Koalasはpandasユーザーにとって有益であるだけではなく、Koalasは例えばPySparkデータフレームから直接データをプロットするなど、PySparkで実行するのが困難なタスクをサポートするので、PySparkユーザーにも役立ちます。

要件

  • KoalasはDatabricksランタイム7.3以上が稼働するクラスターに含まれています。
  • Databricksランタイム7.0以下でKoalasを使用するには、DatabricksのPyPI libraryとしてKoalasをインストールします。
  • IDE、ノートブックサーバー、Databricksクラスターに接続する他のカスタムアプリケーションででKoalasを使用するには、Databricks Connectをインストールし、Koalas installation instructionsに従ってください。

ノートブック

以下のノートブックでは、どのようにpandasからKoalasに移行するのかを説明しています。

Databricks 無料トライアル

Databricks 無料トライアル

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0