2
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

無料で使えるデータプレパレーションツール試してみた

Posted at

#データプレパレーション
データプレパレーション(Data Preparation)は、データ準備、データ前処理とも呼ばれ、さまざまな領域に保管している生のデータを分析や機械学習に使える状態にクレンジングするデータ変換プロセスのことをいいます。

プレパレーションツールが注目される背景

データ活用におけるプロセスでの準備コスト

データ分析作業のうち、作業時間の大部分を占めるのは、データ準備であることがわかっています。
つまり、データプレパレーションのコストを削減することは、データ分析作業全体のコストを削減することに直結するのです。

データの質、量が求められる時代

昨今ではあらゆる業界、業務でデータ活用が進み、セルフBIやAutoMLツールの人気が高まっています。
それにより、専門家ではないビジネスユーザーが自らデータ活用を行う機会が増え、良質なデータが求められるようになりました。
またDXや、クラウドサービスの普及により、データの量も年々増えています。これまで当たり前のように行われてきた、Excelを使ったアナログな作業が、困難な機会も増えてきています。

#VARISTA Data Editor
https://www.varista.ai/feature/data/

処理フローをつなげていき、データを加工していくタイプのデータプレパレーションツールです。
フリープランは無料で利用することができるため、気軽に試すことができます。

利用するデータ

kaggleの「Recruit Restaurant Visitor Forecasting」コンペのデータを利用し以下の処理を施していきます。

加工開始

ツールでデータを開くとこのような画面になります。
「フィルタを追加」から加工する処理を追加していきます。
スクリーンショット 2021-04-25 14.26.57.png

データの結合 - 「マージ」フィルタ

複数ファイルに別れているのデータを結合していきます。
スクリーンショット 2021-04-25 14.33.53.png
スクリーンショット 2021-04-25 14.34.18.png

air_store_idをもとに2つのデータを結合

スクリーンショット 2021-04-25 14.40.42.png
結合するデータ、列を選択
スクリーンショット 2021-04-25 14.39.39.png
スクリーンショット 2021-04-25 14.42.31.png
このように air_stora_id に対して Left Join を行うことができました。

#文字列のsplit - 「区切り文字で分割」フィルタ
air_area_name には「Fukuoka-ken Fukuoka-shi Daimyō」や「Tōkyō-to Toshima-ku Mejiro」のようにスペースで連結された地名が入力されています。
これらの値をスペースで区切って都道府県、市地区町村名に分割していきます。
スクリーンショット 2021-04-25 14.46.17.png
スクリーンショット 2021-04-25 14.49.26.png

結果

このように air_area_name_0 には 「Tōkyō-to」, 「Hokkaidō」 など都道府県
air_area_name_0 には 「Abashiri-shi」, 「Kurume-shi」 など市区町村が入力されました。
スクリーンショット 2021-04-25 14.49.43.png

平均値算出 - 「カテゴリ毎の平均値へ変換」フィルタ

各都道府県の平均visitors数を算出してみましょう。
スクリーンショット 2021-04-25 14.55.23.png
スクリーンショット 2021-04-25 14.56.08.png
スクリーンショット 2021-04-25 14.56.58.png

各都道府県ごとの平均訪問者数が算出できました。

その他のフィルタ紹介

欠損補完

このように、いくつかの補完方法が用意されています。
スクリーンショット 2021-04-25 14.58.14.png

日付フォーマットの変更

スクリーンショット 2021-04-25 14.59.15.png
スクリーンショット 2021-04-25 15.01.06.png
スクリーンショット 2021-04-25 15.00.00.png

外れ値の除去

視覚的に外れ値を確認し、除去することができます。
スクリーンショット 2021-04-25 15.02.42.png
スクリーンショット 2021-04-25 15.02.30.png

その他の機能

各列の統計情報のビジュアライズ

スクリーンショット 2021-04-25 15.04.04.png
スクリーンショット 2021-04-25 15.05.14.png

おわり

小さいデータならエクセルやGoogle Spread Sheetで加工できますが、数MB以上のデータになってくると、開くのも加工するのも、時間がかかってきたり、そもそも開けないといったことが起きてきます。
ある程度ガッツリとデータ加工をしたい場合はPython+Pandasでコードを実装するのもありですが、ちょっとした加工にわざわざコードを実装して実行するのも億劫な場合があったりします。
そんな時にはこのようなお手軽に利用できるプレパレーションツールが重宝されるのではないでしょうか?
みなさんもぜひ使ってみてください。

2
4
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
4

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?