Data Wrangler for VSCode を試してみる
Data Wrangler とは
現在パブリックプレビュー中のデータ探索、前処理用のツールです。
Github のリポジトリに記載のコンセプト訳文:
Data Wranglerは、パンダコードを自動的に生成し、洞察に満ちた列統計と視覚化を表示する豊富なユーザーインターフェイスを提供することにより、データクリーニングを行うデータサイエンティストの生産性を向上させることを目的としています。
引用元:Github Repo
VSCode の拡張機能があるので、試してみます。
使ってみる
-
Step 1 Open Data Wrangler → Open file in Data Wrangler をクリックして、対象のファイルを選択します。
今回はAzure ML チュートリアル の定期預金申込の予測モデル用データである、bankmarketing_train.csv を利用します。
-
初めて機能を利用する場合、 python/jupyter カーネルに接続するための画面が表示されますので、任意の環境を選択します。
-
インストールが完了すると、データファイルをロードして、テーブルビューが表示されます。
画面中央では、それぞれの列ごとの統計情報とレコードが表示され、左側ペインでは、上から Operations(処理内容の一覧)、Data Summary(テーブル全体の統計情報)、Cleaning Steps(行った処理ステップ) が表示されています。
-
はじめに列を絞り込んでみます。Select Columns の処理を一覧から選択すると、列を選択するためのメニューに移動します。
-
処理結果が表示されます。この状態で一度 Preview code for all steps をクリックすると、実施した処理がpandasコードとして生成されていることがわかります。
-
次に、年齢を年代で表現するための列を追加します。Settings で By Example operationをチェックしましょう
-
Operation の一覧に New Column by example が表示されるので、これをクリックします。
-
対象列と追加列名を入力します。
-
緑色で表示される例入力欄に値を入れると、規則が予測され、残りの値が自動生成されます。
-
pandas 側も式が生成されています。10で割って小数点を丸めたあと10倍して戻すといったところでしょうか。
以上です。簡単なデータ処理は十分のように思いますし、サクサク探索できて結構いい感じのツールでした。ぜひご確認してみてください。