この記事は インフォマティカ Advent Calender 2022 Day 23の記事として書かれています。
データ・プレパレーションのクラウド版の新サービスである、CDP (Cloud Data Preparation) がTech Preview(ベータ版)として公開されましたので、紹介致します。
そもそもプレパレーションとは?
セルフサービスBIやデータの民主化が叫ばれて長く経ちますが、依然として「欲しいデータにたどり着けない」「手動でデータの補正が必要」「SQLやプログラミング言語を駆使しなければならない」と言ったデータ準備に関する課題は存在し続けています。
分析者の課題として、「データ準備に80%が掛かり」「データ分析に20%しか割けない」と言う状況も、複雑化するデータ・マネージメントでは改善が難しいです。
そこでインフォマティカは、従来からオンプレで提供してきたデータ・プレパレーションのクラウド版を公開しました。
データを見ながら加工・編集
ローカルPCの表計算・スプレッドシートは、データを見ながら加工・編集できる優れたツールです。
しかし、リソースはローカルPCのみであり、データサイズや行数にも制限があり、ビッグデータ用のデータを作成するには無理があります。
それらの作業と使用感をサーバーサイドに持ち込んで、コンピュータリソースの制限を超えることができるのが、データ・プレパレーションになります。
レシピとしてノウハウの共有
ローカルPCの表計算・スプレッドシートの限界として、他者とのコラボレーションがあります。
ノウハウがファイル上に蓄積され、多くの場合、複数人数で共有しながら作業をする事には向いていません。
CDPでは、レシピとして公開し共有する事でノウハウを横展開して、チームとして、会社としてデータ活用の高度化が可能です。
SQL 不要の簡単操作
複雑な集計や加工をする場合は、SQLやプログラミング言語を駆使する必要があります。
ビジネス部門のメンバーやビギナーの分析者には、それらのハードルは高く習熟には時間が掛かるものです。
例えば、Join(データ結合)処理なども様々な記述やパラメータが必要で、慣れないメンバーに取っては時間が掛るものです
それをCDPでは、表計算・スプレッドシートのように直感的に操作することができます。
Publish(公開)で実体化
作成したレシピに則り、データを公開(Publish)することで、そのデータを使い慣れたデータレポジトリに実体化し活用することができます。
GUIベースで出力先のデータベースを指定することにより、SQLのCreate文などのスクリプトを一切書く必要もなく新しいテーブルを作成し、そのテーブルにデータを流し込むデータ連携ジョブまで一気通貫に実行できます。
最後に
CDP (Cloud Data Preparation) は、新世代のクラウド版データ・プレパレーションとして、登場しました。
クライド化された事により、実行用のハードウェアやソフトウェアが最適化され、データ・プレパレーション作業に集中することができます。
今後、様々な機能やサービスが追加され、拡張が見込まれますのでご期待ください!!
CoE部
嶋田真人(Max)