はじめに
はじめまして、UPDATAの岡村です。この度は記事を読んでいただいてありがとうございます!
今回アドベントカレンダーのご招待をいただきまして、初めてQiitaの記事を書いていますw不慣れな点があっても優しく見守っていただければ幸いですw
簡単に自己紹介させていただくと、現在はUPDATAというスタートアップを経営しています。UPDATAではDataMageというETL〜データプレパレーションまでをワンストップで提供するビジネスユーザー向けのデータマネジメントSaaSを提供しています。
自分自身は元々デザイナー、コーダー→ディレクター→事業責任者→取締役→代表取締役という流れで、制作→ビジネスサイド→経営サイドのようなキャリアの人間です。
その中でも特にデータとテクノロジーが大好きでして、昔かた会社のダッシュボードを勝手に作っていたような人間です。ただしテーブル定義やER図、APIリファレンスなどは読めるのですが、SQLをバリバリ書いたりする事ができるわけではないので、エンジニアさんにお願いしたり、MetabaseやLookerStudioを駆使したりしてデータを扱ってきました。
自分で言うのもなんですが、ビジネスサイドとしてはかなりテクノロジーやデータには詳しい方だと思うのですが、そんな自分でも最新のデータ分析環境を構築したり、データを扱ったりするのは簡単にはできません。
しかし世の中のあらゆるものがデータ化される時代に、「データは専門家が扱うもの」のままではよろしくないなと思い、誰でもデータを扱えるようにDataMageを立ち上げ、今に至ります。
今日の本題ですが、自分の事業の関係もあり、国内外のデータ系プロダクトの調査をするのが日課になっています。
その中でも海外のサービスは本当に一部しか日本で取り扱われていません。
本当に素晴らしいサービスも多くあるなかでこれはもったいないなと思い、今回のアドベンドカレンダーでまとめてご紹介させていただく事にしました!
全てのサービスを自分で使えているわけではないので、若干コメント量に差が出てしまうのですが、その点はご了承くださいw
また専門用語に関しては簡単な補足はしますが、詳細の説明まではこの記事では行いませんので、都度検索していただけますと幸いです。
それでは早速参りましょう!
fivetran(リンク)
サービス紹介
一発目はETLSaaSの王者fivetranです。最近は日本での導入事例もだいぶ増えたのでご存知の方も多いのではないでしょうか?
fivetranの特徴としてはとにかくシンプルで簡単に使えるという事です。ETLに特化している分、機能の作り込みが素晴らしく、各データソースの設定画面なども最適化されています。salesforce、hubspot、GAなどであればOauth認証→デフォルト設定→取込開始などで数分-数十分で取込が完了します。またsalesforceなどは取り込めるテーブルが数百テーブルあるのですが、よく使うテーブルにチェックを入れてくれてあるので、あまり知識が無い方でも安心して使えます。
実は隠し機能として組み込みもできるので、自社のサービスにETL機能を実装したいけど工数が・・・という時にはfivetranを使って組み込むと開発工数を削減できたりもします。SaaSにETLを組み込もうとすると実は死ぬほど大変なので、もしもこれからそういうSaaSを立ち上げるよという方がいたら最初はfivetranを組み込んでみるのも手です。
料金面もクレジット単価×従量課金制で、性能を上げるとクレジット単価が上がっていく仕組みです。最初は一番低いプランから始めれば月額1万円もいかないと思います。ただしデータソースは無制限ですがデータ量が増えると金額が上がっていくので大量のログデータなどを同期させる場合は注意が必要です。
そういえば自分も最近知ったのですが各データソースの初回同期はなんと無償だそうです。そう、それがたとえ何ペタバイトであってもです。これはすごいですよね、過去分のデータを同期する金額が高いと躊躇してしまうというユーザーの心理をちゃんとフォローしています。
たしか時価総額も8000億以上で、社員数も500人以上とデータが出ていましたので、今後も開発速度は上がっていきそうです。
王道という事で、自社のパイプライン管理に課題がある、これからデータ基盤を構築していくという企業の方は是非使ってみてください。
hightouch(リンク)
サービス紹介
次はReverseETLで国内でも有名になってきているhightouchをご紹介します。
ReverseETLというのはETLがDWHにデータを取り込むのに対して、DWHにあるデータをsalesforceなどの外部サービスに連携するサービスの事です。最近ではDataActivationという呼び方もされていますが内容は同じです。
ReverseETLが誕生した背景としては、DWHを中心としたデータ基盤が根付いてきた事で様々なデータがDWH上に蓄積されるようになってきており、今度は逆にそのデータを外部サービスに連携したいというニーズが高まってきたからだそうです。まぁたしかにやりたくなりますよね、むしろなんで今まで無かったのだろうという感じです。
そのため、概念自体が比較的新しく、hightouchの創業も2018年とまだ4年しか経過していません。
使い方は非常にシンプルで、DWH接続→SQLで整形→マッピング→実行で完了です。また予めデータマートなどを作成しておけばテーブルを選ぶだけでSQLを書かなくても使えます。またマーケター向けの機能としてAudienceBuilderというものがあり、ノーコードでデータの抽出ができる機能もあります。こちらは後述するコンポーザブルCDPとして戦っていくための機能と思われます。
ちなみにReverseETLの話をすると、必ず出てくるのがiPaaSの話です。たしかにサービスからサービスにデータを連携するという点ではiPaaSも同じように見えます。個人的な整理としては大量データの同期はReverseETL、イベントベースの連携はiPaaSという整理をしています。例えば1日1回hubspotのデータをsalesfoceに連携したいという事であればReverseETL、hubspotで顧客情報が作成されたらsalesfoceでもリアルタイムに顧客情報を作成するという事であればiPaaSかなという整理です。得意不得意があると思うので、目的によって使い分けるのが良いと思っています。
またReverseETLでの面白い提案はCDPのリプレイスです。コンポーザブルCDPなどとも言われておりますが、要するにDWHを中心として設計されたCDPはどうですか?という提案です。実際にはCDPにどこまで求めるかという事によりそうですが、多くの企業がCDPにもとめている事がリスト作成とその配信(facebookadなども含む)だとすればたしかにリプレイスは可能そうです。このあたりは下記の記事で詳しく記載があるので興味がある方は是非読んでみてください。(ポジショントークもバリバリなのでそこはご了承くださいw)
https://hightouch.com/blog/cdps-are-dead
hightouchは自分も触ってみましたがUIが非常に洗練されていて使いやすかったです。登録後すぐに使う事もできるので、すでにDWHがあってさらにデータ活用をしたいという企業の方は是非試してみてください。
keboola(リンク)
サービス紹介
さて、最初2つは日本でもだいぶ有名になってきているサービスでしたがご安心ください、ここからマニアックな内容に入っていきます!
次にご紹介するのはkeboolaです。keboolaはEnd-to-endのETLを提供するデータプラットフォームです。それだけだと「どういう意味?」となると思うのですが、具体的には取込(ETL)、変換(Transform/dbt連携)、出力(ReverseETL/DataActivation)を全てkeboola上から操作、管理する事ができるオーケストレーションツールという位置づけです。
ModernDataStackなどの最新のデータ基盤構成は複数のサービスから成り立っています。それはつまり設定も複数の画面を跨いで行わなければいけないという事であり、潤沢なリソースがある企業であれば問題ありませんが、立ち上げたばかりのスタートアップや、1人データチームのような状況ではなかなか大変です。そんな時にkeboolaを利用すると1つの画面から全ての操作を行えます。
また機能も充実しており、ワークフロービルダーやデータカタログ、MLまであります。可視化前までの事であればだいたいの事はできるようになっているので、今からデータ基盤を始めるのであれば一旦keboola入れておけばいいかな、という感じさえします。
実は創業は2007年となかなか古く、外部の資金調達をせずにずっと自己資本でやってきた企業だそうです。すごい。現在は100名弱の体制で運営されており、サービスも安定しているのでこれからどのような機能が追加されていくのが非常に楽しみです。
無料で開始する事ができるので、とりあえずデータ環境を構築したいという方は是非触ってみてください。
keboolaのワークフロービルダー
Y42(リンク)
サービス紹介
Y42はオールインワンのデータプラットフォームです。Y42のトップ画面ではMODERN DATAOPS CLOUDと表記されています。(実は最近リブランディングされました)
Y42の特徴としては、極端な話Y42だけでもデータ基盤に必要な機能を全て提供している点です。ETL/DWH/BI全てをY42の中で提供してくれています。さらにAirbyteやdbt、cube、各種BIとの連携なども可能というオールマイティなツールです。
実はY42に関しては以前にデモを触った事があるのですが、非常に高機能で、一通りの事はできそうでした。ただしやれる事の幅が広いので、ある程度データ基盤やデータモデリングの知識がある方でないと使いこなすのは難しそうだなと感じました。
逆に言えばSQLの知識がありdbtなどを触っているデータサイエンティストやアナリストの方がいて、データエンジニアの工数があまり無いという企業であればY42を利用する事でパフォーマンスの高いチームを作ることができるのではないかと思います。
たしかフリートライアルもあったと思いますが、問合せ後にMTGが必要なので英語でも大丈夫という方であれば是非一度問合せてみてください。
MozartData(リンク)
サービス紹介
MozartDataはとても特徴的なサービスです。サービスの範囲としては可視化前の基盤部分を全て提供してくれています。
何が特徴的かというとETLにはfivetranを、DWHにはsnowflakeを採用しているという点です。fivetran+snowflakeはスタートアップでもセットで採用されるケースも多いと思いますが、どうしても触る画面数は多くなってしまいます。MozartDataであれば全ての操作をMozartDataの画面上から行う事ができ、少ない人数でも円滑にマネジメントできる事がメリットです。
私が知っているサービスでもETLは独自開発のサービスが多いのですが、「うちはfivetranだからクラス最高だよ!」というのは逆に気持ちがいいですし、安心感がありますね。DWHがsnowflakeというのも非常にモダンです。
少し話が逸れますが、昨今のデータ界隈でのベストプラクティスと言えばModernDataStackです。しかしY42やMozartDataのようにオールインワンで提供するスタートアップが海外では出てきています。その理由はModernDataStackの運用難易度の高さとデータエンジニアの給与の高騰があると思っています。潤沢なリソースがある企業にとってはデータチームを構築する事は容易ですが、スタートアップにとってはそうではありません。しかしデータを扱うという事自体は重要でどうにかしたい、そういったニーズからオールインワンのツールが出てきているのかなと考えています。
データは分析して次のアクションを決めて実行してなんぼではあるので、そこまでの道のりが長すぎるのは課題だなぁと感じているので、方法はどうあれもっとショートカットできるようになるのは良いなと思います。
whaly(リンク)
サービス紹介
whalyも同様にオールインワンプラットフォームを提供しているYコン出身のスタートアップです。
どちらかというと可視化/BI寄りの打ち出し方をしており、比較対象としてもLookerが多いようです。その証拠にLooker vs whalyという記事がグローバルナビゲーションに貼ってありますw
https://whaly.io/product/alternatives/looker
おそらくは安価なLookerのような位置づけを狙っているのではないかなと思います。たしかにLookerは素晴らしいプロダクトですが価格がボトルネックで導入できない場合も多いと聞くので、そういったニーズは確実にある気がします。
このあたりは後述するheadlessBIやSemanticLayerでも解決していけるので、今後非常に楽しみな分野です。
hevodata(リンク)
サービス紹介
hevodataはETL/Transform/ReverseETLをワンストップで提供するSaaSです。
他にもオールインワンもご紹介しているので伝え方が難しいのですが、ツールとして非常にシンプルに出来上がっているのが特徴です。
一見あれもこれもできそうですが、DWHを接続したら後はETL設定→SQLで変換→ReverseETLで送信くらいなのであまり迷いません。
画面も非常にシンプルな構成になっています。
最初からETLもReverseETLも必要、けどそこまでハードに使うわけではなく、小さく始めたい、そんな企業にオススメのサービスです。
Datameer(リンク)
サービス紹介
Datameerはsnowflakeに特化したデータプレパレーションツールです。実は創業はけっこう古いようで、snowflake特化というブランディングに変更したのは近年のようです。
使い方はシンプルでsnowflakeを接続するとすぐにデータの変換ができます。変換はSQLでも可能ですし、ノーコードのエディタもあるので非エンジニアの方でもできます。
実はデータプレパレーションって意外と少ないのですよね。自分はSQLが書けないのですごく欲しいのですが海外でもそこまで多くありません。データプレパレーションは今後ニーズが増えると思っていて、その理由はデータを使う人が劇的に増えていくためです。これまでは「専門家がやること」だったデータが「仕事で普通に使うもの」になっていくと、SQLを書かなくともデータを扱いたいというニーズが確実に増えてくるはずなのでDatameerはそういった意味でも注目しています。
cube(リンク)
サービス紹介
cubeはheadlessBIのOSSです。最近はSemanticLayerという呼び方もされていますね。おいおいついにBIもheadlessになったのかよ、という声が聞こえてきそうですがそうです。なっちゃいました。日本ではさすがにまだ馴染みが薄いですが、USではheadlessBIを謳うサービスやOSSは増えています。
そもそもなんでheadlessBIが出たのかという話を簡単にすると部署ごとに様々なBIが導入された結果、部署によって同じ指標でも数字が合わなくなるといった問題が出てきたからだそうです。(なんて贅沢な悩み!!!日本でも早くそうなってほしいぜ!)
ちなみにこの話で「あれ、Lookerもそういう課題解決しているんじゃなかったけ?」と思った方はさすがです。その通りで、LookerのLookMLの部分とコンセプトは同じです。Lookerも自身の事をBIではなくデータプラットフォームと位置づけている事からその思想が伺えます。
Lookerは費用がボトルネックで導入できなかった・・・という声もよく聞くので、headlessBIやSemanticLayerを導入する事で課題解決ができるようになってくると選択肢が増えて良さそうです。
またdbtでもSemanticLayerの提供が決まっており、それが出ると一気にSemanticLayerの概念が広がるのではないかなと思います。
こちらはOSSですがクラウド版もあるので、是非興味がある方は試してみてください。Slackコミュニティもけっこう人数がいました。
holistics(リンク)
サービス紹介
holisticsはデータチームとビジネスチームが円滑にコラボレーションするために設計されたセルフサーブ型のBIツールです。
LookerのLookML同様にSemanticLayerがあり、データチームがデータモデリングをしておく事で、ビジネスチームは項目をドラッグ&ドロップするだけでデータの可視化が行なえます。
アカウント登録をするとすぐに利用できるので使ってみましたが、UIはシンプルで使いやすかったです。チームで利用するまではできていないので、どの程度円滑に運用できるようになるかは分かりませんが、fivetran/snowflake/holisticsなどの最小構成で運用してみても面白そうです。
ちなみにお決まりですがdbt連携はできるようなので現在dbtを利用されている企業でも導入可能です。
gooddata(リンク)
サービス紹介
こちらもholistics同様にSemanticLayerを持ったセルフサーブ型のBIツールです。特徴も似ているのでそこまで記載する事は無いのですが、headlessBIとしても利用できるようです。こちらも登録後すぐに利用ができるので、興味がある方はアカウント登録して使ってみていただけると嬉しいです。
終わりに
ここまで読んでいただいてありがとうございます。最後の方は息切れしていて文字数が少なくすいませんw今回ご紹介したサービスはこの1年くらいで調査した中で特に気に入っているサービスをご紹介させていただきました。国産のサービスはまだあまり多くないですが、海外ではこんなにたくさんの素晴らしいサービスがあるのだなといつも感動しています。
途中にも書きましたが、これまでデータは「専門家の触るもの」でしたが、今後は「仕事で普通に使うもの」になっていくと思っています。例えば今の時代に「PCは専門家の道具だろ」なんて言う人はいませんよね?それと同じです。そんな事を言っている人は相手にされなくなります。
そのためにはデータに対する教育、文化づくり、ツールの提供など、やらなければいけない事が多くあります。そのためにデータに関わっている人や組織で力を合わせて盛り上げていきたいなと思いますので、皆様これからもよろしくお願いいたします!