はじめに
株式会社NTTデータ NTTデータ テクノロジーコンサルティング事業本部 デジタルテクノロジー&データマネジメントユニット の nttd-yuan です。
Databricksのエバンジェリスト資格 Databricks Champion の認定を受けています。
本記事では、基調講演の2日目(6月29日)の速報を現地からお送りします!
基調講演の1日目やその他の「Data and AI Summit 2023 - Databricks」のコンテンツについては、関連リンクからご参照ください。
基調講演(6月29日)
本日の基調講演では、Apache SparkとDelta Lakeの最新アップデートが注目されました。また、LangChain、DuckDB、PyTorchなどのオープンソースプロジェクトや、Computer Visionの最新動向についても説明がありました。
Apache SparkとDelta Lakeは本記事で、その他は#2(近日公開予定)にてお届けします。
対談: AIが世界を救う
DatabricksのCEOであるAli Ghodsi氏とAndreessen Horowitzの共同創業者であるMarc Andreessen氏の対談から始まりました。
対談では、過去5年間でAIは急速に進歩し、その要因はデータの重要性にあると強調されました。また、AIがさまざまなメディアに適用されることで、さらなる進化が期待されると述べられました。
AIは人間の意思を持たないため、映画のようなシナリオは起こりにくいと主張されました。また、質問の言い回しによって異なる答えが得られることが話され、わずかなトレーニングデータの変化でも異なる答えが生じることや、プロンプトエンジニアリングという手法によってコンピュータが異なる答えを生成できることが述べられました。
AIの進化により、プログラマの効率が向上し、プログラミングの能力がない人々でもプログラミングが可能になることが期待されました。さらに、AIの発展によって新たな需要やビジネスが生まれ、経済成長と雇用創出が期待されると語られました。
最後に、将来のキャリアについてのアドバイスとして、AIとデータの分野が未来であり、若い人々が取り組むべきであり、自分たちが未来のヒーローになる可能性があると述べられました。
Apache Spark
Databricksの処理エンジンであるApache Spark 3.4のアップデートがDatabricksの共同設立者であるReynold Xin氏 によって3つ紹介されました。
- まず最初はSpark Connectです。Spark Connectは新しい技術で、Sparkをアプリケーションに接続することができます。Spark 3.4で一般提供(GA)され、開発者は好きなIDEを使用しながらSparkの開発とデバッグを行うことができます。また、Go、Scale3、Swiftなど様々な言語のSDKにも対応します。
- 次にPythonです。数年前から、SparkをPythonのように使いやすくするための「Zen」というプロジェクトが始まりました。Spark 3.4では、コード自動補完機能の強化やPython APIを介した簡単なSparkデータソースの接続などが更新され、Sparkの使いやすさが向上しました。
- そして最後に新言語が登場しました。それがなんと 「English」 という言語です!昨日の基調講演でも言及されたAndrej Karpathy氏の「The hottest new programming language is English」が実現される機能です。この機能は「English SDK for Spark」と呼ばれ、データフレームの加工処理のコードを英語で書くことで、英語の意味通りの処理が実現できます。会場ではデモが行われ、大いに盛り上がりました!
詳細はDatabricks公式からも記事が投稿されているため、こちらも合わせてご確認ください。
Delta Lake
Databricksの特別エンジニアであるMichael Armbrust氏によって、Delta Lakeの最新アップデート情報が紹介されました。
Delta Sharing
Delta Sharingについて、以下のような最新アップデートがありました。
- OracleやTwilioなどの新しいパートナーの加入
- 構造化ストリーミング機能
- クエリの遅延の改善(50倍)
- OAuth 2.0 Spark & Pandasのサポート
- ゼロ費用でCloudflare R2へのデータ移行
Delta Lake 3.0
6月28日の基調講演で一度発表されたDelta Lake 3.0について、より詳細な説明が行われました。
具体的には、Liquid Clustering、Delta Kernal、Delta UniFormの3つの新機能について説明されました。
-
Liquid Clustering
Liquid Clusteringは、データレイクハウスの構築において適切なパーティショニング戦略を見つけることが難しい課題を解決するものです。Liquid Clusteringは柔軟かつ自動的にデータレイアウトを最適化し、高速な読み取りパフォーマンスを提供します。Liquidはシンプルで効率的であり、データの増加に応じて自動的に調整され、クエリパターンの変化やデータの不均衡な分布に対処することが可能です。類似の最適化アルゴリズムであるZORDERと比較して、Liquid Clusteringは圧倒的なパフォーマンス向上を実現していることがベンチマークで示されています。
-
Delta Kernal
Delta Kernalは、Deltaのコネクタエコシステムを統一するために導入されました。Kernelは簡素なAPIを提供し、Deltaの複雑なプロトコルの詳細を隠蔽し、コネクタ開発者はKernelのバージョンを更新するだけで最新のDelta機能にアクセスできるようになります。 -
Delta UniForm
これまでレイクハウスのデータフォーマットは、Delta、Iceberg、Hudiの3種類に分けていました。Delta UniFormの有効化設定をテーブルプロパティに追加してDeltaテーブルを作成すると、IcebergやHudiと互換性のあるテーブルが作成され、IcebergやHudiのクライアントからの読み書きが可能になります。
さらに、パフォーマンスの面では、IcebergやHudiのメタデータを書き込む必要があるため、書き込み性能は最大で5%低下しますが、Deltaで定義されたデータの配置が最適化されているため、読み込み性能は驚くほど30%向上することが報告されています。
(ここで再び会場は盛り上がりました!)
Delta UniFormにより、Delta、Iceberg、Hudiが統一され、今後は迷う必要がなくDeltaを選択することができるということ。
Delta KernalとDelta UniFormの組み合わせにより、Delta Lakeはあらゆるエコシステムをサポートするようになったと言えます。
詳細はDatabricks公式からも記事が投稿されているため、こちらも合わせてご確認ください。
おわりに
本日は、6月29日の基調講演の前編として、Apache SparkとDelta Lakeの最新アップデートをご紹介いたしましたが、いかがでしたでしょうか。Apache SparkとDelta Lakeには、ユーザビリティの向上につながる多くのアップデートが行われています。実際の現場でも、Databricksのユーザーが非常に喜んでいる様子が伺え、Databricksがユーザーの要望に積極的に応えていることを示す証拠ではないかと考えております!
関連リンク
- Data and AI Summit 2023 - Databricks 現地レポート(6/27 Parner Summit)
- Data and AI Summit 2023 - Databricks 現地レポート(6/28 基調講演)#1
- Data and AI Summit 2023 - Databricks 現地レポート(6/28 基調講演)#2
- Data and AI Summit 2023 - Databricks 現地レポート(6/29 基調講演)#1 ※本記事
- Data and AI Summit 2023 - Databricks 現地レポート(6/29 基調講演)#2
- Data and AI Summit 2023 - Databricks 現地レポート(EXPOブース)
仲間募集
NTTデータ テクノロジーコンサルティング事業本部 では、以下の職種を募集しています。
1. クラウド技術を活用したデータ分析プラットフォームの開発・構築(ITアーキテクト/クラウドエンジニア)
クラウド/プラットフォーム技術の知見に基づき、DWH、BI、ETL領域におけるソリューション開発を推進します。https://enterprise-aiiot.nttdata.com/recruitment/career_sp/cloud_engineer
2. データサイエンス領域(データサイエンティスト/データアナリスト)
データ活用/情報処理/AI/BI/統計学などの情報科学を活用し、よりデータサイエンスの観点から、データ分析プロジェクトのリーダーとしてお客様のDX/デジタルサクセスを推進します。https://enterprise-aiiot.nttdata.com/recruitment/career_sp/datascientist
3.お客様のAI活用の成功を推進するAIサクセスマネージャー
DataRobotをはじめとしたAIソリューションやサービスを使って、 お客様のAIプロジェクトを成功させ、ビジネス価値を創出するための活動を実施し、 お客様内でのAI活用を拡大、NTTデータが提供するAIソリューションの利用継続を推進していただく人材を募集しています。4.DX/デジタルサクセスを推進するデータサイエンティスト《管理職/管理職候補》
データ分析プロジェクトのリーダとして、正確な課題の把握、適切な評価指標の設定、分析計画策定や適切な分析手法や技術の評価・選定といったデータ活用の具現化、高度化を行い分析結果の見える化・お客様の納得感醸成を行うことで、ビジネス成果・価値を出すアクションへとつなげることができるデータサイエンティスト人材を募集しています。ソリューション紹介
Trusted Data Foundationについて
~データ資産を分析活用するための環境をオールインワンで提供するソリューション~https://enterprise-aiiot.nttdata.com/tdf/
最新のクラウド技術を採用して弊社が独自に設計したリファレンスアーキテクチャ(Datalake+DWH+AI/BI)を顧客要件に合わせてカスタマイズして提供します。
可視化、機械学習、DeepLearningなどデータ資産を分析活用するための環境がオールインワンで用意されており、これまでとは別次元の量と質のデータを用いてアジリティ高くDX推進を実現できます。
TDFⓇ-AM(Trusted Data Foundation - Analytics Managed Service)について
~データ活用基盤の段階的な拡張支援(Quick Start) と保守運用のマネジメント(Analytics Managed)をご提供することでお客様のDXを成功に導く、データ活用プラットフォームサービス~https://enterprise-aiiot.nttdata.com/service/tdf/tdf_am
TDFⓇ-AMは、データ活用をQuickに始めることができ、データ活用の成熟度に応じて段階的に環境を拡張します。プラットフォームの保守運用はNTTデータが一括で実施し、お客様は成果創出に専念することが可能です。また、日々最新のテクノロジーをキャッチアップし、常に活用しやすい環境を提供します。なお、ご要望に応じて上流のコンサルティングフェーズからAI/BIなどのデータ活用支援に至るまで、End to Endで課題解決に向けて伴走することも可能です。
NTTデータとDatabricksについて
NTTデータは、お客様企業のデジタル変⾰・DXの成功に向けて、「databricks」のソリューションの提供に加え、情報活⽤戦略の⽴案から、AI技術の活⽤も含めたアナリティクス、分析基盤構築・運⽤、分析業務のアウトソースまで、ワンストップの⽀援を提供いたします。NTTデータとSnowflakeについて
NTTデータでは、Snowflake Inc.とソリューションパートナー契約を締結し、クラウド・データプラットフォーム「Snowflake」の導入・構築、および活用支援を開始しています。 NTTデータではこれまでも、独自ノウハウに基づき、ビッグデータ・AIなど領域に係る市場競争力のあるさまざまなソリューションパートナーとともにエコシステムを形成し、お客さまのビジネス変革を導いてきました。 Snowflakeは、これら先端テクノロジーとのエコシステムの形成に強みがあり、NTTデータはこれらを組み合わせることでお客さまに最適なインテグレーションをご提供いたします。NTTデータとInformaticaについて
データ連携や処理方式を専門領域として10年以上取り組んできたプロ集団であるNTTデータは、データマネジメント領域でグローバルでの高い評価を得ているInformatica社とパートナーシップを結び、サービス強化を推進しています。NTTデータとTableauについて
ビジュアル分析プラットフォームのTableauと2014年にパートナー契約を締結し、自社の経営ダッシュボード基盤への採用や独自のコンピテンシーセンターの設置などの取り組みを進めてきました。さらに2019年度にはSalesforceとワンストップでのサービスを提供開始するなど、積極的にビジネスを展開しています。これまでPartner of the Year, Japanを4年連続で受賞しており、2021年にはアジア太平洋地域で最もビジネスに貢献したパートナーとして表彰されました。
また、2020年度からは、Tableauを活用したデータ活用促進のコンサルティングや導入サービスの他、AI活用やデータマネジメント整備など、お客さまの企業全体のデータ活用民主化を成功させるためのノウハウ・方法論を体系化した「デジタルサクセス」プログラムを提供開始しています。
NTTデータとAlteryxについて
Alteryxは、業務ユーザーからIT部門まで誰でも使えるセルフサービス分析プラットフォームです。 Alteryx導入の豊富な実績を持つNTTデータは、最高位にあたるAlteryx Premiumパートナーとしてお客さまをご支援します。導入時のプロフェッショナル支援など独自メニューを整備し、特定の業種によらない多くのお客さまに、Alteryxを活用したサービスの強化・拡充を提供します。