風邪引いたり旅行したり本読んだりしてた。で、某方向から「AIDPってなんだろね」って声が聞こえてきたので自分なりに咀嚼したことをメモしておく。
個人の独断と偏見が多分に含まれています
AIDPってなに?
Oracle AI Data Platform(AIDP) とは、Oracleが後発で作ったDatabricksのパクr・・・ゲフンゲフン!!
コホン。
・・・Oracleが後発で作ったDatabricksのパクりです
本当に咳き込んだだけだった!(元ネタ)
Data Management Platform(DMP)というジャンル
Gartnerだと "データサイエンスおよび機械学習プラットフォーム" とか、 "Data Management Platform(DMP)" などというジャンルでひとくくりにされている。
AWS, MS, Googleという大手はとりあえず置いといて、Databricks, Dataiku, Altair, DataRobotという聞き慣れない会社が入っている。
これらの会社は要するにデータ分析の統合開発環境を売っている専業会社。ためしにこれらの会社の製品の図解を並べてみると・・・
Databricks

(出典: https://www.databricks.com/jp/resources/architectures/data-ingestion-reference-architecture)
Dataiku

(出典: https://www.dataiku.com/product/)
DataRobot

(出典: https://www.datarobot.com/blog/agnostiq-agentic-ai-app-development/)
Altairはなんかいい絵がなかったので割愛
さらにAWS, MS, Googleの御三家を見てみると
AWS - SageMaker

(出典: https://aws.amazon.com/jp/sagemaker/)
Azure - Synapse

(出典: https://learn.microsoft.com/ja-jp/azure/synapse-analytics/overview-what-is)
Google - Data Fusion

(出典: https://cloud.google.com/blog/ja/products/data-analytics/introducing-the-code-free-bridge-to-data-analytics-on-google-cloud)
・・・どうだろうか?アイコンの形や配置や全体的なデザインはともかくとして、要素がおどろくほど似通っていることに気づいただろうか?
じゃ、Oracle AIDPはどうかというと・・・

(出典: https://www.youtube.com/watch?v=lU1HCd-8Uwk 56:59前後)
めっちゃ似てる〜!!
ということで、AIDPはDMPプラスアルファだと思えば当たらずとも遠からずだと思う
DMPをめぐる最近の流れ
じゃあ各社どういうところで競ってるのってところで、自分が気づいたところを箇条書きにしてみた
レイクハウス
データソースから抜いてきたデータを置くときに、毎回ゴリゴリ正規化してDWHに置くのはしんどいから、とりあえずある程度整形したものもしくは整形しないものをレイクハウスという名前の安いストレージに置いておいて、並列化したクエリエンジンでデータを抜き出そうぜ。よく使うやつならもうちょっと手間かけてDWHに入れてもいいかもねって流れ。お高めのDWHになんでもかんでも突っ込まずに、データをティアリングして管理すれば予算的にも優しいねって話。
例えばDatabricksだと、S3に置いたparquetをApache Icebergでクエリするとか、基幹技術をOSSで出しつつ統合力で勝負とか(個人の感想です)、Googleならある程度怪しいやつもBigQueryに突っ込んでGoogle独自の謎パゥワーでゴリゴリやっちゃうとか(個人の感想です)。
でも結局お金がかかるといえばかかる(実例)。
自然言語によるデータクエリ(Natural Language to SQL, NL2SQL)
SQLがわかんない人向けの出口戦略はいままでBIダッシュボードが一般的だったけど、自然言語でデータをクエリできればいろんな細かいニーズも拾えますねって話。
実際の現場で使われてる条件って結構複雑で、そんなぽっと出のNL2SQL程度で再現できるかどうかもよくわからんし、仮にできたとしてどれだけ需要があるかは未知数。個人的な理解だと、BIダッシュボードを業務で見てる人って別にそれでdata explorationしたいわけじゃなくてあくまで定点観測のためのソースとして使っていて(だからドリルダウンくらいができれば十分)、経時的な状況の変化を見てるって理解なんだけど。でも作る側はなぜかみんな好きでやりたがるんだよね。意味わかんない(個人の感想です)。
とりあえず四の五の言わずにSQL覚えたほうがいいっスよ(個人の感想です)
AIボットの作成管理
いいデータ食わせればいい動きのボットができるんじゃないの?って意味わかんない前提でなぜかみんなボットを作りたがるので各社アピールしてる。
自分的まとめ
- とりあえずDMPプラスアルファだと理解しておけばいいんじゃね?
- とにかくデカいので、ちょっと気になる〜的な気安さで手を出すもんじゃない、気がする
一応 xx 年前に少しデータ分析系ビジネスにいっちょ噛みしてた経験から言うと、1人でなんとかなるもんじゃないし、やる気と情熱でどうにかできるものでもないって感じ。詳細はあえて語らず。
特に何がどうとは言わないけれど、個人的にこれよなって思ったもの貼っときます。