こちらの記事は個人のメモとなっておりますので、まったく有用な情報が得られないかもしれません。ご注意ください。
「どこよりも遅い」というのは主観です。
DATA+AI SUMMIT 2024
幸いなことに、今回のDATA+AI SUMMIT 2024に現地から参加することができました。
お世話になった皆様、本当にありがとうございました。
いろいろ見聞きして、思ったこともありますので個人的振り返りメモを残しておきます。
なお、詳細なレポートは下記のように既に様々な方が出されておりますので、そちらをご確認いただく方がよいと思います。
Key Notes
昨年もそうでしたが、今回も超盛沢山。Super excited.
個人的に気になった・思うところがあるポイントのみ絞って書きます。
カスタマーユースケース登壇や特別講演の内容まで触れると大変な量になるのでそこは割愛します。
Unity Catalog OSS化
Day1の序盤にいきなりブッコンで来たのでかなりビックリしました。
Iceberg Catalogsに対する何かは出てくると思っていたのですが、まさかフルでOSS化するのは想像の上でした。
Day2ではMatei氏がGithubリポジトリをPublicに変更するセレモニーも行い、盛り上がりがやばかったです。
こういうところ、OSSの取り扱いが本当に上手な会社だと思います。
100% Serverless
WorkflowやDelta Live Tablesのサーバレス化は以前より発表されていましたので、自然な流れかなあと。
SQLやモデルサービングは既にサーバレスですし。まだ未定らしいですが、日本リージョンにも思ったより早く来そうな雰囲気です。
ただ、企業・組織によってはサーバレスでは問題があるケース(セキュリティマターやネットワーク都合など)もあるはずで、通常の自クラウド環境下でのインスタンスを利用する場合とサーバレスを使う場合とを使い分けることになるだろうと考えています。
両方の選択肢が提供される、というところがDatabricksとしての強みになりそう。
使い分けの前提条件などのノウハウ化が課題かな。コスト最適を考えるとさらに考えることが増えそうですし。
こういったノウハウを持たせたLLM(Compound system)をDatabricksから出してほしい。。。
Liquid Clustering
Liquid Clusteringにおいて、CLUSTER BY AUTO
でLiquid Clusteringのキー選択を自動化できるようになります。これで高度なテーブル最適化が実質全自動でできるようになるんじゃないか。。。
今後のテーブル作成においてデフォルトの挙動になるそうな気がしています。
Predictive I/O 2.0
Queryの高速化は毎年の恒例行事ではありますが、ちゃんとやり続けてくれていることが本当にありがたいです。
本当にずっとやり続けて欲しいし、多くの顧客ニーズは根源的にここにあり続けると思っています。
Databricks AI/BI
今回のAI関連の目玉(だと思う)。
GenieはDAISの前からプレビュー利用が可能でしたが、Dashboardとの連携含めて、ユーザ企業において非常にインパクトのあるサービスだと思います。
なんというか、多くの経営層が「これ出来たらいいよね」ってずっと前から言い続けてきたことがようやく形になったような印象です。
ただ、もちろん経営のための仕組だけというわけじゃなくて、現場部門含めて「育てていく」仕組だと、これに関するブレイクセッションを聞いて思いました。
利用する組織の人たちが、正しい答えを得られるようにするためにInstructionを教え込んでいく、そしてSQLを使える人がいる組織なら、さらに正しいSQLをInstructionできるという、組織が持つドメイン知識をきちんと入れ込んでいける仕組です。
実は、最初のうちは経営レイヤーを中心に利用を広げる想定をしていたのですが、もっと深みのある展開方法がありそうだなと今は考えています。
あとAI Functionsのai_forecast
関数は気になる。手軽に使えるなら用途はいろいろあるので。
Mosaic AI Agent Framework/Evaluation
既にドキュメントは公開されています。
詳細はまだ理解しきれていないので、試せたら記事にしたいと思います。
そして、エージェントツールをカタログ上で管理できるのは便利ですね。これも早くで得切るようになって欲しい。
この発表を聞いていて思ったのは、Databricksとしては単純なRAGだけではもはや実ビジネスへの活用に不足を感じているのではないでしょうか。(GenieもSQLを実行するエージェント機能を有しているわけですし)
全然違うよ!だったら申し訳ないのですが、自分も結構似たような感覚を持っており、そこのフレームワークそして評価の仕組を持ってくるところが非常に現実を見据えた動きをしているように感じます。
2024/1月のこの記事で、2024年はLLM Agent飛躍の年と書いたのですが、割とそういう感じに実際なってきているなという印象を持ちました。
実際のところ、私はなんとなく書いただけなので、完全に後付けで言っています(笑)。
Delta Lake 4.0/Uniform GA
Deltalakeも4.0まで来たんだ、というどこか不思議な感覚。
Uniformは昨年のDAIS2023で発表があり、「まじか。。。」とリアルで呟いたのをまだ覚えているのですが、丁度一年後にGAでしたね。
これでほとんどのサービスからDeltalakeが利用可能になるということで、凄い話です。
さらにTabluarの買収がDeltaLakeとIcebergコミュニティに今後どのような効果を及ぼすのか、楽しみにしています。
Unity Catalog Updates
ABAC(属性ベースのアクセスコントロール)のサポートやSharing for Lakehouse Federation、Clean Rooms、Unity Catalog Metricsといったものの発表がありました。
今後、Unity Catalogを中心としたエコシステムを強力に構築していくだろうことが予想されます。
Lakehouse FederationのSharingはデータの流れが実際どうなるのか気になるのですが、こちらのサービスを搭載されることで、「もう全部Unity Catalog経由でいいんじゃないか」が本当にできてしまいそうです。かなり強力なソリューションになりそうで、データアーキテクチャを見直すレベルで考えてもいいんじゃないかと思いました。
あと、かなり嬉しいのがMetrics。これ、KPI定義を一元管理したい事業会社には非常にありがたい機能だと思うんですよね。
その上、Databricks AI/BIと連携できる。うーん、素晴らしい。
Metricsはまだ先ぽいですが、この方向の進化はありがたいです。全体のシナジーがすごいことになる。
今回発表の中で、個人的にUnity Catalog関係の発表が一番ワクワクしました。
LakeFlow
Unity CatalogがNo1ワクワクなら、こちらがNo2ワクワクです。(No3はAI/BIとMosaic AI関連が同率かな)
ETL関連の処理(Jobのオーケストレーション含む)がLakeFlowという形で再編されます。
また、Ingest関連がConnetという形のコンポーネントとして新たに構築され、様々なデータソースからCDCでデータをキャプチャできます。
確かにCDCでの差分取込は簡単ではないので、これはありがたい。
また、全体としてDAGで処理を作れるUIが提供されるので、Easy to useにはなります。
ただ、本質的に簡単になるのか(データパイプラインは複雑度が上がると、コードで書いて管理する方が楽だったりする)とか、変換を担うPipelineのところがDLTとどのように変わるのか(既存のDLT Notebookがそのまま動くのか、変換する必要があるのか、など)が気になっています。
とはいえ、これです。
その他
革ジャンはやっぱり革ジャンを着てくるんだ!というのを生で見れました(失礼)。
Breakout Sessions
イベントセッションはキーノート除いて20程度に参加しました。
軽くですが、主にDatabricksの機能関係かつキーノートで振れなかったポイントの中で、印象に残ったものを記載します。
LLM in Production
LLMのFine Tuning Loopの話が出ていました。
dbdemosに既に公開されていますが、以下記事にあるようにFinetuning APIが効果されています。(日本リージョンはまだ)
本格的にProduction利用するためには、Fine-Tuningが避けて通れないかもしれませんが、そのためのデータ生成とか評価はやはり大事だなって感じました。
Unity Catalog関連の他アップデート
アクセス権の依頼をメールやSlackに飛ばしたり、Jiraなどのワークフローを回す機能がそろそろPrivate Preview予定のようです。
また、Hive Metastore FederationがPrivate Previewであり、hive_metastore
カタログをUnity Catalogのちゃんとした管理化に移せそう。
また、PIIの自動的な分類タグ付けやテーブルの品質健康状態のインジケータ表示、PK/FKを使ったER図の自動生成が紹介されていました。
Delta Sharing関連の他アップデート
Streaming TableとMaterialized Viewが共有可能になります。(現在Private Preview)
Delta Live Tablsを使っている人にとっては非常にありがたいです。
Observability
既に下記のような日本語記事が出ていますが、Lakeview Cost DashboardやBudget Alertsの機能が紹介されていました。
Genieの今後
今後予定されている高度な機能について、個別セッションの中で紹介されていました。
ちょっと理解できてないものもありますが、以下の3つがスライドには載っていました。
- Certified Answers: ミッションクリティカルな質問について、100%信頼できる回答を作成できるよう方法を、Certified Answerとして事前定義する機能
- Canonical Metrics: ユニークユーザ数のように、トリッキーな集計を必要とするメトリクスについて、正しく計算できるようにする方法を提供
- Accuracy Evaluation: 共有前に質問をテストするような機能の提供
まとめ
2日目から参加し、非常に楽しい3日間を過ごしました。
なんというか、この領域を盛り上げていこうという熱気や意思を強く感じられたのが、現地参加のよかったところでした。これで時差ボケの苦しみも耐えられる。
しばらくは、Breadout SessionのOn Demand動画を見ていく日々を過ごそうと思います。めっちゃ盛沢山なので、果たして来年のDAISまでに見終わるのか…笑
おまけ
今回のキーノートで一番笑ったスライド。
Unity CatalogのOSS化の際にMatei氏が出したものですが、いや某社に喧嘩売りすぎだろうと(笑)