DATA+AI SUMMIT 2023が開催されました。
個人的に興味があって初日のキーノートを視聴していましたので、発表があった内容と所感を記載します。
発表内容はキーノートの会話順ではなく、カテゴリをまとめなおして記載しています。
注意
メモ的に書いてる部分が多いため、正確な内容を把握する場合は公式blogの内容などを確認ください。あと、7月になればキーノート内容の配信も始まるはず。
所感の部分は本当に個人の感想です。
Democratize data analytics across the enterprise
LakehouseIQ
詳細は、以下の公式blogで紹介されています。
主な機能は、以下のようなものです。詳しくは上記の公式blogが一番わかりやすいと思いました。
- 自然言語(英語)での問い合わせで回答やコードを生成するAssistantの提供
- Platform上の検索機能に自然言語での問い合わせを統合
- エラー訂正のサジェスト
- Unity Catalogのテーブルコメントなどのサジェスト
また、この機能がLakehouseIQ APIとして提供されます。Pythonで数行のコードを書くだけで利用できるようになるようです。
所感:
- 個人的には、大きな驚きを持った、というより堅実な方向性で進めてきたなと思いました。
- 他社も同種のサービスで競争を進める中、どのような差別化を打ち出してくるか、期待。
- ただ、APIとして提供することはおもしろいし、Lakehouse Platformで使えるということは、LLM Agentの実装においては最強じゃね?という感じがある。
- 最初からSQL操作可能なデータベースや、Python等のコードを実行可能なJob環境を備えているわけで、この強みを生かした処理実装でおもしろいことができそうな気はする。
- 気になるのは、価格含めた提供形態。APIコールごとの課金体系だと美味しくない。例えば、裏側のModel - Serving部分は時間でお金がかかるが、その稼働時間以外はコストがかからないサービスとかだとリーズナブルな気がする。発表が楽しみ。
Databricks Marketplace / Lakehouse App
関連する公式blogはこちら。
- Databricks MarketplaceがGA
- MarketplaceでModel Sharingが可能に
- Lakehouse App公開 https://www.databricks.com/blog/introducing-lakehouse-apps
- Kumoでのデモがセッション動画では行われていた
所感:
- いきなりGAが発表されたので、少しびっくり。Model Sharingはもともとアナウンスされていたので、いよいよか、という感じ。
- LLMのSharingが今後増えるとしたら、hugging faceとのすみ分けとかどうなっていくのか、というところが楽しみ。
- Lakehouse Appはちょっと動画やblogだと、まだよくわからず。ただ、UI開発含めたアプリ開発や運用が- Lakehouse Platform上で円滑に行えるなら、正直欲しい。SnowflakeやPalantirと同様のサービス提供という感じなんだろうか。
Develop Generative AI applications
MosaicML
MosaicMLの買収については、こちらで事前にアナウンスされてます。
- MPT-7B/30B のトレーニングコスト等の話
- なぜ、私たちは自身でモデルをビルドするのか?理由は下記3点。
- Control
- Privacy
- Cost
所感:
- 自社においては、特にPrivacyとCostの問題がプロプライエタリのLLMだと付きまとう。
このあたりを解決するソリューションとして、OSSのLLM活用は模索していかないといけないというのを改めて認識。 - 別のパートでの話だけど「AIはコモディティ化され、データで差別化される」という方向なのは間違いなくて、協力な多言語対応モデルがこのようにOSSで公開されていく状況は今後加速していくと思う。(し、Databricksがこのあたりをリードしていくだろうと思う)
Lakehouse AI : Vector Search / Model Serving / Feature Serving
関係する公式blogはこれかな
https://www.databricks.com/blog/lakehouse-ai
- Vector Search for Indexingの提供
- LLM用のGPUクラスタによるModel Serving提供。特定のモデルは最適化された環境で使えるみたい。
- LLM対応のAutoML提供
- Lakehouse Monitoring : モデルのドリフト状況?などのモニタリング
所感:
- Vector Searchのサービスをplatformとして提供するのは想定外でした。ChromaDBとかFAISSとかとどういった違いになるんだろう。
- Unity Catalog/Sparkと一体化したベクトルDB的な使い方ができる?
- デモだとlangchainのvector storeと同様のインターフェースで提供されるみたいなイメージだった
- MicrosoftのCognitive Searchに似てる?
- モデルサービングについては、日本はよ。
- LLM対応AutoMLは、標準でdeepspeedを使ってLoRAとかでFine tuningできたりするならいいと思う。コストを抑えて学習回したい。
MLflow 2.4/2.5
- MLflow Evaluation
- これ自体はVer.2.4.0ですでに実装されている?
- MLflow AI Gateway
- OpenAIやBardなど、AI Service向けのCredentialやログ管理などをするための仕組み?
所感:
余談だけど、2.4.1は最新のhuggingface transformersのロギングに対応してないので、対応よろしくお願いします!(誰に言っているのか・・・)
Implement unified governance for all data
Unity Catalog updates
公式blogだとこちらかな
- テーブルだけでなく、モデルやVolume(非構造データのファイル領域など)もUnity Catalogでガバナンス管理
- Lakehouse Federation : mysqlやbigqueryなど、外部データベースも管理可能
- リネージュ管理が、テーブル間だけでなく、使ったモデルも含めた管理可能
- タグ機能実装
所感:
- Federationは待ち望んでいた機能。これでカタログ統合が進む。
- モデルもVolumeもUnity Catalog下管理になったのは、非構造データも扱えるlakehouseの概念実践という感じでよい。
- リネージュにモデルが載るのは地味にうれしい。
Delta Lake 3.0
公式発表はこちら。
- Delta Universal Format (UniForm) : apache hudiやicebergとのユニバーサル統合(というのが適切な表現なのか微妙ですが)
所感:
- マジか。 すべてがD(elta)になる。
Anythin Else
DBSQL/Data warehouse
- DatabaseのIndex/Clustring、大変だよね。これからのLLM時代、従来方法でやるの無理あるよね。
- Predictive I/O と Predictive Optimization によるクエリの高速化
所感:
- とても大事な領域。これからの高速化や運用不可軽減はどんどん突き詰めていって欲しい。
全体通して
- LLMの利用が、プロプライエタリとオープンソースだと、OSS側の方が多くなってきているというのが驚き。でも、自分もOSS LLMの活用が企業活用の鍵だと思う。
- 個人的に期待したいところはUnity Catalogのアップデート。
- LLM関連は他社サービス含めて玉石混合すぎるので慎重に見極めていきたいが、MPT-30Bなどの高性能なOSS LLMが容易に使えるようになると非常にありがたい。
- Lakehouse Appも気になるので追っかけていきたい。
- Serverless Model Serving 日本はよ。
Day2も楽しみにしてます。