#データプレパレーション
データプレパレーション(Data Preparation)は、データ準備、データ前処理とも呼ばれ、さまざまな領域に保管している生のデータを分析や機械学習に使える状態にクレンジングするデータ変換プロセスのことをいいます。
プレパレーションツールが注目される背景
データ活用におけるプロセスでの準備コスト
データ分析作業のうち、作業時間の大部分を占めるのは、データ準備であることがわかっています。
つまり、データプレパレーションのコストを削減することは、データ分析作業全体のコストを削減することに直結するのです。
データの質、量が求められる時代
昨今ではあらゆる業界、業務でデータ活用が進み、セルフBIやAutoMLツールの人気が高まっています。
それにより、専門家ではないビジネスユーザーが自らデータ活用を行う機会が増え、良質なデータが求められるようになりました。
またDXや、クラウドサービスの普及により、データの量も年々増えています。これまで当たり前のように行われてきた、Excelを使ったアナログな作業が、困難な機会も増えてきています。
#VARISTA Data Editor
https://www.varista.ai/feature/data/
処理フローをつなげていき、データを加工していくタイプのデータプレパレーションツールです。
フリープランは無料で利用することができるため、気軽に試すことができます。
利用するデータ
kaggleの「Recruit Restaurant Visitor Forecasting」コンペのデータを利用し以下の処理を施していきます。
加工開始
ツールでデータを開くとこのような画面になります。
「フィルタを追加」から加工する処理を追加していきます。
データの結合 - 「マージ」フィルタ
air_store_idをもとに2つのデータを結合
結合するデータ、列を選択
このように air_stora_id に対して Left Join を行うことができました。
#文字列のsplit - 「区切り文字で分割」フィルタ
air_area_name には「Fukuoka-ken Fukuoka-shi Daimyō」や「Tōkyō-to Toshima-ku Mejiro」のようにスペースで連結された地名が入力されています。
これらの値をスペースで区切って都道府県、市地区町村名に分割していきます。
結果
このように air_area_name_0 には 「Tōkyō-to」, 「Hokkaidō」 など都道府県
air_area_name_0 には 「Abashiri-shi」, 「Kurume-shi」 など市区町村が入力されました。
平均値算出 - 「カテゴリ毎の平均値へ変換」フィルタ
各都道府県ごとの平均訪問者数が算出できました。
その他のフィルタ紹介
欠損補完
日付フォーマットの変更
外れ値の除去
その他の機能
各列の統計情報のビジュアライズ
おわり
小さいデータならエクセルやGoogle Spread Sheetで加工できますが、数MB以上のデータになってくると、開くのも加工するのも、時間がかかってきたり、そもそも開けないといったことが起きてきます。
ある程度ガッツリとデータ加工をしたい場合はPython+Pandasでコードを実装するのもありですが、ちょっとした加工にわざわざコードを実装して実行するのも億劫な場合があったりします。
そんな時にはこのようなお手軽に利用できるプレパレーションツールが重宝されるのではないでしょうか?
みなさんもぜひ使ってみてください。