DATA+AI SUMMIT 2023が開催されました。
Day2での発表について、いくらかピックアップメモ。
パネルディスカッションなど、対談系は省略しています。そちらは動画見た方がいいです。
Eric Schmidt氏が出てきたのは驚いた。
注意
メモ的に書いてる部分が多いため、正確な内容を把握する場合は公式blogや配信動画の内容を確認ください。
所感の部分はただの個人の感想です。
Keynoteの配信動画は既に二日間ともyoutubeに上がっていますね。
Spark
- Downloadsが10億こえたよー。
New in Spark 3.4
- Spark ConnectがGA
- Python
- Autocomplete with Project Zen
- [SPARK-44076] Python data source and UDTF extension
- [SPARK-44042] Build-in PySpark test framework
New LLM-powered features
- pyspark.ai English SDK for Apache Spark.
- Sparkの変換処理やプロット指示を通常の英語で記載できる!
- UDFも英語で書くだけでOK。
公式のblog発表:
所感:
- 目玉はEnglish SDK for Apache Spark.
- 早期実装状態ですが、既に試すことができるみたいですね。
- 長く愛されるモジュールはどうしても肥大化傾向にあり、学習コストが高くなりがちですが、LLMを使って解消してくという動きはおもしろいかも。
- 従来のソフトウェア工学の考え方とか、テスタビリティ・メンテナンスビリティみたいなところがどうなるのか、興味があります。
Deltalake
What’s New(最近のアップデート)
- Structured streaming
- Query latency improvement
- OAuth 2.0
- Zero Egress Fee Delta sharing with Cloudflare R2
Deltalake 3.0
公式blogはこちら↓
- Liquid clustrring
- partitioningすると、パーティションによってはファイルサイズがばらつく
- 自動的にクラスタでのファイルサイズを調整してくれる機能
- 2.5倍以上高速に!?
- ZOrderもかなり読み出しが高速化する
- Delta Kernel
- Implements the complete Delta specification
- Delta sharingなど、処理がわかれていたのを統合カーネル化
- Uniform
- HudiやIcebergをdelta protocolから制御可能
- Is UniForm fast?
- Deltalakeにおいて、UniForm有効/無効での書き込みコスト差は5%未満(有効時の方が遅い)
- ただし、Icebergは、なんとUniformを有効にしてDelta Protocol(Kernel)環境下の方が早い!
所感:
- Day1ではまだよくわからなかったUniFormが具体的な内容で説明されていました。
- Blogで内容は理解できますが、Keynoteではデモもしていましたので、動画見ることをお勧めします。
その他
- DuckDBやlangchain、fireworks(pytorch)などのOSS関連の発表やパネルディスカッションなど盛りだくさん。
- langchainおもしろいよlangchain。
おしまい
- 楽しく、寝不足な二日間でした。
- また来年。業界的にもどうなっているのかなー。