Python
Spark
pandas
Visualization
Jupyter

Jupyter/Pythonでデータ分析する人にお勧めしたい!便利なライブラリー「PixieDust」をザクッと紹介します

image

はじめに

こんにちわ!石田です。皆様、「PixieDust1 」ってPythonライブラリー、ご存知ですか?昨年出て超便利なのに、なぜか日本ではぜんぜん知られてませんッ2。日本語の記事はQiitaの「これ」くらい:pensive:。。 Plotlyipywidgetでシコシコ書くよりぜんぜん楽だし守備範囲も広いので、「このまま埋もれさせるのはモッタイナイ!」と思ってご紹介の記事を書きました。一番ウケそうな「インタラクティブなチャート・ウィジェット」については別記事「Jupyter/Python上でたった3行でインタラクティブなチャート・ウィジェットを作れる!PixieDustを触ってみた」にHow-To含め書きましたので、そちらをご参照ください。当記事では、より広く浅く/全体的に「何、それ?」「何ができるの?」=Whatだけザクッとご紹介します。(個人的には、探索的データ分析(EDA)の際のツールの一つとして、pandas_profilingとかと一緒に使うと便利かなと思います。)

PixieDustって何?(サマリー)

PixieDustはJupyter Notebook/Python環境で、最小限のコーディングで誰でも簡単に3データを分析して結果をWebに公開/シェアできる「簡単ライブラリー」群です。大きくは以下の4つの機能があります。
image

  • 2017年にIBMがオープンソースとして公開しました
    • プロジェクトはGithub上で公開しています
    • Apache 2.0ライセンスなので商用利用も可能です
    • Release Noteにありますが、継続的に改善・機能アップしてます
    • ローカルのJupyter/Python環境にpip installでインストールして動かせます
    • クラウド環境ではIBMのWatson Studio上のJupyter Notebookで、すぐに使える形でご提供中です
  • データ分析を誰でも簡単に3できるようにする」のが目標です
    • 超シンプルなAPI(基本は2つ)
    • たった3行でインタラクティブなチャート・ウィジェットを作成
    • グラフやチャートの描画エンジン(レンダラー)は動的に切り替え可能
    • 以下のライブラリーをサポートするが、ライブラリーの知識は不要
      • DataFrame - Pandas and/or Spark
      • Visualization Engine - matplotlib/Bokeh/Seaborn/Brunel
      • Map - mapbox/Google Maps
  • 「インタラクティブなチャート・ウィジェット」以外にも様々な機能があります
    • データの加工・整形(Data Wrangling)
    • Jupyter Notebook上のセルで動くPythonデバッガー
    • Jupyter上の分析セルをWebアプリとしてそのまま公開、または簡単な独自アプリ(PixieApps)
    • 主にSpark周りの便利ユーティリティ

まずは3行=APIを2つ知ってれば十分!

この3行書けば対話式ウィジェットが作れます。(URLはファイルの場所)
image

あとはメニュー操作でチャートやマップが簡単に作れます
image

主に知っている必要があるAPIは基本、2つだけです.

  1. データをインポートするためのsampleData(URL) - 利用は任意
  2. データを可視化するためのdisplay(df) - 必須

しかありません。ややこしいパラメータもありません。簡単すぎ。。
image

全体図/イメージ

以下が機能とライブラリーをマッピングした全体図です
image

  1. PixieDustは主にデータ入力や対話式ウィジェットの機能を提供します
  2. PixieDust-Rosieはデータラングリングの機能を提供します(別導入)
  3. PixieAppはPixieDustの分析セルをダッシュボードとして簡単に公開できる仕組みです
  4. Pixie Gateway(別導入)はPixieAppを動かすランタイムエンジンです
  5. 水色で囲まれたJupyterやPython, Pandas等は「前提環境」です4
  • 上記のライブラリや機能は選択可能であり、全部を入れる/使う必要はありません。最小限ではpip install pixiedustでPixieDustさえいれれば対話式ウィジェットは使えます。それ以外はオプション=使いたければ使うものであり、インストールや環境設定は必須ではありません。
  • :triangular_flag_on_post: Sparkは必須ではありません。Pandasだけでも動きます。 従来からIBMはSpark推しですし、Watson Studioでの利用を想定してか、ドキュメント上ではSparkを想定した記述が多いですが、実はSparkなし=Pandasだけの環境でもフツーに使えます。「え~Spark前提か~。pandasは知ってるけどSparkは知らないよ~:worried:」と思われる方もおられるかと思い、念のため記載しました。要はPandasのDataFrameがあればいいんです。

機能ざっくり紹介

以上で大枠のご説明が終わったので、ここからは「こんなことできるよ」というのを順番にご紹介していきます。以下のようにPixieDustは着々と機能を広げてきています。Release Noteによると、執筆時点(2018/9)では1.1.8が最新です。

image

データのインポート

Pandas環境でもSpark環境でも区別無くsampleData(URL)でURLにあるファイルを読み込めば環境にあったDataFrameを返してくれます。

  • インターネット上(http://~)でもローカル(file://~)でも
  • 拡張子zipやgzの場合、ダウンロードして展開してくれます
  • 当APIの利用は必須ではなくオプション。自分でpandasのDataFrameを作ってもいいのです。

インタラクティブなチャート・ウィジェット

image

ウイジェットが表示されたら左上のメニュー類でチャートを選択します。
右上のRendererを切り替えるとレンダリングエンジンを切り替えられます。
X軸、Y軸は「Options」で指定します。

image

上記のように各ライブラリーの特色を生かしたビジュアライゼーションが簡単に表示できます。

image
(データ中に緯度と経度があれば)グラフだけでなくマップも簡単に表示できます。

上記すべての操作でコーディングは一切不要で、メニューから対話式に行えます。

データ・ラングリング(PixieDist-Rosie)

image

データの整形・加工を行う機能です。以下の2行で上記のパネルが表示されます。

import pixiedust_rosie
pixiedust_rosie.wrangle_data(URL)

対話式に以下の操作を行えます。

  • カラムの削除
  • カラムのリネーム
  • カラムの変換(Transform)

image

Rosieは、こちらもIBMがオープンソースで公開している正規表現のパターン言語です。Rosieを使ってカラム変換のルールを表現します。たとえば上記ではIndicatorIDというカラムを「コード」部と「数値」部に分離するような変換を行います。

image
実行すると上記のようにDataFrameに新しいカラムが追加されます。

PixieApps

image

Jupyter Notebook上でデータサイエンティストの人が行った分析結果を現場の人と共有するにはどうすればいいでしょうか。その場限りなら画面コピーをメールで送るのでもよいかもしれませんが、変更など含めて継続的・計画的に行うならWebアプリケーションの形が望ましいでしょう。かといって毎回JupyterのセルをWebアプリに焼き直していたらたまりません。この課題を解くためにできたのがPixieAppsです。

PixieAppsを使えば、最小限のコーディングでJupyter Notebook上にツールやダッシュボードを作れ、分析業務を運用に乗せられます( PixieApps are Python classes that allow users to operationalize analytics by creating tooling or dashboards in a notebook with minimal coding)

pixieapp-05.gif

How-Toは別の記事に譲りますが、上記のように分析した結果のセルを簡単にWebアプリとしてデプロイできますし、既存のWebアプリに組み込むのも容易です。

さらに進んだ方法としては独自のクラスでHTML/CSSを使ったアプリを作ることもできます。以下はHello Worldです。

HelloWorld.py
#import the pixieapp decorators
from pixiedust.display.app import *

@PixieApp   #decorator for making the class a PixieApp
class HelloWorldApp():
    @route()  #decorator for making a method a route (no arguments means default route)
    def main_screen(self):
        return """<div>Hello World</div>"""

#Instantiate the application and run it
app = HelloWorldApp()
app.run()

上記をNotebook上で実行すると以下のようにレンダリングされます。右上のボタンでPixieGatewayにデプロイすることもできます。UIのテンプレートエンジンとしてはFlaskで有名なJinja2が使えます。

image

上記だけだと「だから何?」って感じですが、HTML/CSSを駆使すれば以下のような本格的なダッシュボードを作ることもできます。

image

PixieDebugger

Jupyter Notebookのセルで使えるビジュアルな対話式デバッガーです。PixieApp専用というわけではなくて、汎用的なPythonデバッガーです。セルマジックを一行追加するだけで使えるので、pdbより手軽で超便利!

pixiedebugger-03.gif

:newspaper: 文献: The Visual Python Debugger for Jupyter Notebooks You’ve Always Wanted

その他

細かい機能ですが

  • Scala Bridge - セルマジック %%scalaを書くと以降のセルでScalaが使えるようになります
  • Spark Package Manager - クラウドホスティング環境=特権IDが無い環境でJupyterの構成ファイルを編集せずにmavenパッケージをインストールできるようにするもの。ローカル環境では不要か。
  • Spark Progress Monitor - Jupyter上でSparkの処理の進行状況を表示するバー

などもあります。

最後に

いかがでしたでしょうか。Pixiedustは「インタラクティブなチャート・ウィジェット」から始まりましたが、守備範囲や機能がどんどん広がっています。簡単なので、まずは手軽にpip install pixiedustしてウィジェットを使ってみてください。あれこれ触ってるうちに操作はわかってきます。データ分析で皆様が楽をできることを願っています。この先、DataWranglingやPixieAppの記事も書きたいと思っておりますが、まずはここまで!

各種リソースのご紹介(全部英語 :flag_us:です)

:blue_book: ドキュメント

:blue_book: (有料ですが) ネタ本あります

PixieDust開発チーム@IBMの David Taiebさんが書いた本があります。
Thoughtful Data Science

image

  • 2018/6/31に出たばかりです
  • PixieDustの全体説明もありますが、特にPixieAppsの情報が充実していました
  • Amazon書籍は$40しますが、出版元でのeBook買えば$10でした。私はオライリー社の読み放題サービス「Safari Books Online」を使って読みました。Safari Books Onlineは無料トライアルがあると思うので、それらを使うのもいいでしょう。

github

Github pixiedust/pixiedust

:newspaper: ブログ記事

PixieDustの技術情報は主に MediumのDataLab上で発信しています
image

DataLab内をキーワード"pixie"で検索すると、技術記事がたくさんでてきます。

:tv: 動画やデモ


  1. 英語でPixieDustとは「妖精が振りかける魔法の粉」のことだそうです。ビーターパンで妖精のティンカーベルが振りかけてる、あの粉のことです。落合陽一氏の会社とは関係ありません。 

  2. って胸を張ってどうする。。オープンソースですがIBM発ってことで色が着いてるのか、商用ライブラリーと思われているのか、Spark専用と誤解されているのか、そもそも宣伝が足りないのか。。  

  3. IT専門家やデベロッパーはもとより、ITに詳しくないエンドユーザー様でも、多少の知識があればそれなりに分析ができるようにすることを目指してます  

  4. 前提は「全部を導入せねばならない」わけではありません。扱うデータがPandasだけで足りるならSparkは不要ですし、グラフ・チャートのレンダラーもmatplotlibさえあれば残りはオプション(無ければメニューで選べないだけ)です。