はじめに
株式会社NTTデータ デジタルサクセスソリューション事業部の nttd-yuan です。
Databricksの新機能は驚くべきスピードで発表されており、毎日がワクワクの連続です。しかし、情報を追うのが大変なこともあります。また、新機能を試そうとしたところ、東京リージョンでまだ使用できないことに気づくこともあるでしょう。
そこで、本書では、DatabricksのDAIS 2024で発表された新機能とリリース情報を一覧にまとめました。Databricksの新機能の検証・導入を検討されている皆様の参考にしていただければ幸いです。
なお、機能の詳細については、以下のサイトに掲載されているDAIS 2024の現地レポートをぜひご参照ください。
注意
- 本書はDatabricks on AWSの前提に作成しています。Databricks on AzureやDatabricks on GCPとの違いはほとんどありませんが、リリース時期に違いがある可能性があるため、参考程度にご利用ください。
- 本書は2024年7月16日時点の情報をもとに作成しています。今後、適宜アップデートを行う予定ですが、最新の情報を保証するものではありません。
前提
インプットとなる情報
本書は以下の公開情報をインプットに作成しています。
リリース情報の定義について
本書に記載するリリース情報は、以下のサイトのPlatform releasesに掲載されている3つのリリースタイプを使用します。
サイトは翻訳されていないため、以下で翻訳します。
リリースタイプ | 使用可能な人 | 本番環境での使用 | インターフェース安定性 | SLA | サポート | 備考 |
---|---|---|---|---|---|---|
Private Preview | 招待のみ | いいえ | いいえ | いいえ | エンジニアリングチーム | 招待のみ利用可能で、通常は少数の顧客向けです。プレビューはデフォルトでOFFになっており、管理者がワークスペースでプレビューを有効(または無効)にできます。通常、Databricksのドキュメントは伴いません。 |
Public Preview | 全員 | はい | はい | はい | サポートチーム | すべての顧客が利用可能です。デフォルトのプレビューステートは有効または無効にできます。管理者はワークスペースで無効にすることでプレビューをオプトアウトできます。パブリックプレビューの間に設定されたプレビューステートは変更されません。これらの機能はDatabricksのドキュメントに記載されており、安定しておりGAに進むことを意図しています。GAが近づいている場合、DatabricksのUIに通知が表示されます。 |
一般提供(GA) | 全員 | はい | はい | はい | サポートチーム | すべての顧客が利用可能です。この機能は完全にサポートされ、本番環境で使用可能です。 |
Databricks新機能とリリース情報の早見表(2024年版)
本題に入ります。以下に一覧情報の早見表をまとめました。
リリース情報については、東京リージョンでのリリースを前提に記載しています。東京リージョンが対象外の場合は、その旨を明記しています。
リリース情報が「-」となっている機能は、東京リージョンではまだリリース情報が公開されていないか、どちらのリリースタイプにも属さない機能(例:オープンソース化された機能)を示しています。一部の「-」の機能は情報が公開されていないが、Private Previewで提供されている可能性があリますので、興味のある機能があれば、個別にDatabricks社にお問い合わせください。
Generative AI
# | 機能名 | 機能概要 | リリース情報 |
---|---|---|---|
1 | Mosaic AI Model Training | 企業独自のデータを用いてLLMモデルをファインチューニングし、ノーコードでカスタムLLMモデルのトレーニングが可能です。 | Public Preview(東京リージョンは対象外) |
2 | Shutterstock ImageAI | テキストから高品質な画像を生成する機能です。 | Private Preview |
3 | Mosaic AI Vector Search | Vector Search機能が一般公開され、パフォーマンス、データガバナンス、検索品質が向上しました。 | GA |
4 | Mosaic AI Tool Catalog | 共通関数のエンタープライズレジストリを作成し、組織全体でツールを共有し、AIアプリケーションで使用できるようにする機能です。 | Private Preview |
5 | Mosaic AI Model Serving | モデルサービング機能が一般公開され、GenAIモデルのサポートも追加されました。 | GA |
6 | Mosaic AI Agent Framework | RAG型生成AIアプリを迅速に開発・デプロイするためのエージェントフレームワークです。 | Public Preview(東京リージョンは対象外) |
7 | Mosaic AI Agent Evaluation | GenAIアプリの自動および人間による評価機能を提供し、回答のレビューやラベル付け、運用品質評価、拡張評価データセットの構築が可能です。 | Public Preview(東京リージョンは対象外) |
8 | MLflow 2.14(Tracing) | モデルとエージェントの推論ステップを記録し、パフォーマンスの問題をデバッグし、将来の改善をテストするための評価データセットの構築が可能です。 | GA |
9 | Mosaic AI Gateway | モデルの管理、ガバナンス、評価、切り替えを簡単に行うための統合インターフェースを提供します。 | Private Preview |
10 | Mosaic AI Guardrails | エンドポイントやリクエスト単位で安全フィルタを提供し、不正な応答や機密情報漏洩を防ぎます。 | Private Preview |
11 | system.ai Catalog | 最新のオープンソースモデルをキュレーションし、Unity Catalogのsystem.aiで管理します。 | Private Preview |
Warehousing & AI/BI
# | 機能名 | 機能概要 | リリース情報 |
---|---|---|---|
1 | AI/BI Dashboard | ノンクエリで簡単に作成、共有、ページ埋め込みが可能なダッシュボードを自然言語で作成し、SQLでAI機能を利用して予測を表示できます。 | GA |
2 | AI/BI Genie | Unity Catalogと連携した対話型システムで、メタ情報を含むアクセスが可能です。過去の対話やSQLを基に対話内容が改善され、データ内容も自然言語で問い合わせが可能です。 | Public Preview |
3 | AI Functions | SQL内で利用可能なビルトイン関数を提供し、時系列予測関数やVector SearchによるFuzzyな検索も可能です。 | Public Preview |
4 | Auto Statistics | ANALYZEコマンドを実行せずに自動的にDeltaテーブルの統計情報を取得し、クエリオプティマイザーによる最適なクエリプラン生成に使用されます。 | ー |
5 | Predictive I/O | データ操作のパフォーマンスを向上させるための最適化機能で、高速読み取りによりスキャンと読み取りの時間を短縮し、更新の高速化により書き換えデータの量を削減します。 | GA |
6 | Deletion Vectors | Delta Lakeテーブルで有効にできるストレージ最適化機能で、DELETE、UPDATE、MERGE操作をParquetファイルを書き換えずに削除や変更された行をマークします。 | GA |
Data Engineering
# | 機能名 | 機能概要 | リリース情報 |
---|---|---|---|
1 | LakeFlow | 取り込みコネクタの簡単な準備、増分取り込み対応、SQLの自動生成、ストリーミング処理、自動オーケストレーション、監視機能を提供します。 | ー |
2 | Serverless(SQL Warehouse) | SQL Warehouseのサーバーレス版です。 | GA |
3 | Serverless(Notebook&Workflow) | Databricks NotebookとWorkflowのサーバーレス版です。 | Public Preview |
4 | Serverless(DLT Pipelines) | Delta Live Tableパイプラインのサーバーレス版です。 | Public Preview |
Governance & Collaboration
# | 機能名 | 機能概要 | リリース情報 |
---|---|---|---|
1 | Lakehouse Federation | データ仮想化を実現し、Unity Catalog経由でさまざまなデータソースにアクセスして統合的なガバナンスと発見性を提供します。データソースからのリネージが自動的に取得され、効率よくソースデータを参照できます。 | Public Preview(近日GA予定) |
2 | HMS Federation | Unity CatalogのOpen Hive Metastore Interfaceによるメタデータのオープン化で、Apache HiveやAWS Glueとの統合が可能となり、既存のデータ資産を効率的に活用できます。ReadとWriteの両方が可能です。 | Private Preview |
3 | ABAC(属性ベースのアクセス制御) | Unity CatalogのテーブルやAIモデルに対する中央横断的なポリシービルダーで、属性(タグ、ロケーション、アイデンティティ、タイム属性など)に基づいた横断的なアクセス制御を実現します。 | Private Preview |
4 | Lakehouse Monitoring | Unity CatalogのテーブルやAIモデルの品質を自動的にチェックし、メトリクス情報を収集し、モニタリングダッシュボードを生成します。 | GA(東京リージョンは対象外) |
5 | Unity Catalog Metrics | ビジネスメタデータを統括的に管理し、データエンジニアとビジネスユーザーのギャップを解消します。ビジネスメトリクスの定義、ガバナンス、クエリ実行が可能で、Databricksおよび外部ツールからアクセスできます。サードパーティーのメトリクスプロバイダーとの連携も可能です。 | ー |
6 | Volumes | クラウドオブジェクトストレージの場所にあるストレージの論理ボリュームを表し、ファイルのアクセス、保存、管理、整理を提供します。 | GA |
7 | Tagging | Unity Catalogのオブジェクトを整理および分類するためにキーとオプションの値を含む属性を追加する機能です。 | GA |
8 | Open Sourcing Unity Catalog | Unity Catalogのオープンソース版を提供し、Apache 2ライセンス、Linux Foundationでホスト可能です。Iceberg REST API(UniForm)も含まれます。 | ー |
9 | Delta Sharing | データとAI資産をセキュアに共有する機能です。 | GA(一部マイナー機能のSharing for Lakehouse Federation、Cross-Platform View SharingはPrivate Preview中) |
10 | Marketplace | データ製品を取引するためのオープンフォーラムです。 | GA |
11 | Clean Rooms | データの実体を公開せずにセキュアなデータコラボレーションを実現する機能です。 | Private Preview(近日Public Preview予定) |
Data Formats
# | 機能名 | 機能概要 | リリース情報 |
---|---|---|---|
1 | UniForm | Delta Lake、Iceberg、Hudiの差分を吸収する新しいテーブルフォーマットで、性能も低下しません。 | GA |
2 | VARIANTデータ型 | 半構造化データを効率的に保存し、クエリ実行するための新しいデータ型です。 | Public Preview |
3 | Liquid Clustering | データ分散を動的に調整し、クエリパフォーマンスを最適化するための自動クラスタリング機能です。 | GA |
終わりに
ご覧いただきありがとうございました。
今後も適宜情報を更新する予定ですので、ぜひ記事をストックしてご活用ください。
仲間募集
NTTデータ テクノロジーコンサルティング事業本部 では、以下の職種を募集しています。
1. クラウド技術を活用したデータ分析プラットフォームの開発・構築(ITアーキテクト/クラウドエンジニア)
クラウド/プラットフォーム技術の知見に基づき、DWH、BI、ETL領域におけるソリューション開発を推進します。https://enterprise-aiiot.nttdata.com/recruitment/career_sp/cloud_engineer
2. データサイエンス領域(データサイエンティスト/データアナリスト)
データ活用/情報処理/AI/BI/統計学などの情報科学を活用し、よりデータサイエンスの観点から、データ分析プロジェクトのリーダーとしてお客様のDX/デジタルサクセスを推進します。https://enterprise-aiiot.nttdata.com/recruitment/career_sp/datascientist
3.お客様のAI活用の成功を推進するAIサクセスマネージャー
DataRobotをはじめとしたAIソリューションやサービスを使って、 お客様のAIプロジェクトを成功させ、ビジネス価値を創出するための活動を実施し、 お客様内でのAI活用を拡大、NTTデータが提供するAIソリューションの利用継続を推進していただく人材を募集しています。4.DX/デジタルサクセスを推進するデータサイエンティスト《管理職/管理職候補》
データ分析プロジェクトのリーダとして、正確な課題の把握、適切な評価指標の設定、分析計画策定や適切な分析手法や技術の評価・選定といったデータ活用の具現化、高度化を行い分析結果の見える化・お客様の納得感醸成を行うことで、ビジネス成果・価値を出すアクションへとつなげることができるデータサイエンティスト人材を募集しています。ソリューション紹介
Trusted Data Foundationについて
~データ資産を分析活用するための環境をオールインワンで提供するソリューション~https://enterprise-aiiot.nttdata.com/tdf/
最新のクラウド技術を採用して弊社が独自に設計したリファレンスアーキテクチャ(Datalake+DWH+AI/BI)を顧客要件に合わせてカスタマイズして提供します。
可視化、機械学習、DeepLearningなどデータ資産を分析活用するための環境がオールインワンで用意されており、これまでとは別次元の量と質のデータを用いてアジリティ高くDX推進を実現できます。
TDFⓇ-AM(Trusted Data Foundation - Analytics Managed Service)について
~データ活用基盤の段階的な拡張支援(Quick Start) と保守運用のマネジメント(Analytics Managed)をご提供することでお客様のDXを成功に導く、データ活用プラットフォームサービス~https://enterprise-aiiot.nttdata.com/service/tdf/tdf_am
TDFⓇ-AMは、データ活用をQuickに始めることができ、データ活用の成熟度に応じて段階的に環境を拡張します。プラットフォームの保守運用はNTTデータが一括で実施し、お客様は成果創出に専念することが可能です。また、日々最新のテクノロジーをキャッチアップし、常に活用しやすい環境を提供します。なお、ご要望に応じて上流のコンサルティングフェーズからAI/BIなどのデータ活用支援に至るまで、End to Endで課題解決に向けて伴走することも可能です。
OSSチーム紹介 | NTTデータグループ
株式会社NTTデータグループ OSS(オープンソースソフトウェア)チームは、Hadoop/Spark/Kafka/HBaseなどの高難易度なOSSプロダクトのサポートを提供 しています。OSSコミュニティ活動やプロジェクト支援を実施するとともに、OSSでは提供しきれない中長期的なサポートも提供しています。チームには、 Hadoop/Spark/Bigtopなどのコミッタも在籍 しております。OSSを扱う時にお困りの際にはぜひお気軽にお問い合わせください。
-
問い合わせ・HPはこちら:
https://oss.nttdata.com/ -
登壇資料などSlideShareはこちら:
https://www.slideshare.net/hadoopxnttdata
NTTデータとDatabricksについて
NTTデータは、お客様企業のデジタル変⾰・DXの成功に向けて、「databricks」のソリューションの提供に加え、情報活⽤戦略の⽴案から、AI技術の活⽤も含めたアナリティクス、分析基盤構築・運⽤、分析業務のアウトソースまで、ワンストップの⽀援を提供いたします。NTTデータとSnowflakeについて
NTTデータでは、Snowflake Inc.とソリューションパートナー契約を締結し、クラウド・データプラットフォーム「Snowflake」の導入・構築、および活用支援を開始しています。 NTTデータではこれまでも、独自ノウハウに基づき、ビッグデータ・AIなど領域に係る市場競争力のあるさまざまなソリューションパートナーとともにエコシステムを形成し、お客さまのビジネス変革を導いてきました。 Snowflakeは、これら先端テクノロジーとのエコシステムの形成に強みがあり、NTTデータはこれらを組み合わせることでお客さまに最適なインテグレーションをご提供いたします。NTTデータとInformaticaについて
データ連携や処理方式を専門領域として10年以上取り組んできたプロ集団であるNTTデータは、データマネジメント領域でグローバルでの高い評価を得ているInformatica社とパートナーシップを結び、サービス強化を推進しています。NTTデータとTableauについて
ビジュアル分析プラットフォームのTableauと2014年にパートナー契約を締結し、自社の経営ダッシュボード基盤への採用や独自のコンピテンシーセンターの設置などの取り組みを進めてきました。さらに2019年度にはSalesforceとワンストップでのサービスを提供開始するなど、積極的にビジネスを展開しています。これまでPartner of the Year, Japanを4年連続で受賞しており、2021年にはアジア太平洋地域で最もビジネスに貢献したパートナーとして表彰されました。
また、2020年度からは、Tableauを活用したデータ活用促進のコンサルティングや導入サービスの他、AI活用やデータマネジメント整備など、お客さまの企業全体のデータ活用民主化を成功させるためのノウハウ・方法論を体系化した「デジタルサクセス」プログラムを提供開始しています。
NTTデータとAlteryxについて
Alteryxは、業務ユーザーからIT部門まで誰でも使えるセルフサービス分析プラットフォームです。 Alteryx導入の豊富な実績を持つNTTデータは、最高位にあたるAlteryx Premiumパートナーとしてお客さまをご支援します。導入時のプロフェッショナル支援など独自メニューを整備し、特定の業種によらない多くのお客さまに、Alteryxを活用したサービスの強化・拡充を提供します。