こんにちは!株式会社マクニカでDatabricksのエンジニアをしています。@satoshy2です。
Databricksとは?(マクニカ紹介ページ)
先週までDatabricks Data + AI Summit 2025(以下、DAIS 2025)が盛り上がっていました。そこでは、多くの新機能が発表されましたが、Databricksは通常時でも多くの新機能が発表されています。そこでDAIS 2025では大々的に発表されていないもののリリースノートでリリースがアナウンスされている機能をメインに新機能をいくつかご紹介します。
今回は2025年6月13日までに発表された機能から一部を紹介します(少し古い機能も紹介する場合があります)。
1. Claude Sonnet 4とClaude Opus 4 の基盤モデル
AnthropicのClaude Sonnet 4とClaude Opus 4モデルがDatabricksの基盤モデルとしてリリースされました(余談ですが、3.7まではClaude 3.7 Sonnet
と間にバージョンが入っていましたが、4からはClaude Sonnet 4
と最後にバージョン番号が入るようになりました)。 ただ、弊社環境では、AWS版/Azure版ともにUSリージョンでもClaude Opus 4
は確認できていません。
2. Databricks ランタイム 17.0 (ベータ)、Databricks Runtime 17.0 for Machine Learning (ベータ)
Databricksランタイム17.0のベータ版がリリースされました。現状では、DAIS 2025でも発表されていたSpark 4.0.0が使える唯一のランタイムになります。弊社が考える大きな変更点は以下の2つになります。
- SQLプロシージャのサポート(他社製品からのマイグレーションがより容易になると期待しています)。
- PythonやScala上でMerge APIを使用した時の戻り値をデータフレームに変更(DLTでのPythonを使用したMerge処理が使いやすくなるのではと期待しています)。
3. 予算設定の改善
重量課金のユーザーに対して支払い方法がより細かく制御できるようになりました。具体的には、以下の3つになります。
- 支払い方法の追加と更新
- 支払い方法の変更
- 無料トライアルクレジットを含む、クレジット期限の表示
4. Databricks SQL アラート (ベータ)
新しいDatabricks SQLアラート(ベータ版)がリリースされました。
これまではクエリーとアラートは別々に管理していましたが、1つの画面に統合されました。
また、以前のアラートではできなかった列同士を比較してアラートすることもできるようになりました。
5. ワークシステムシステムテーブルが利用可能に (パグリックプレビュー)
system.access.workspaces_latest
テーブルが有効になり、システム上で現在アクティブになっているワークスペースのリストと状態を取得できるようになりました。
6. 属性ベースのアクセス制御(ABAC) (ベータ)
ABAC は、 Databricks全体で柔軟でスケーラブル、かつ一元化されたアクセス制御を提供するデータガバナンスモデルです。 ABAC は、データ資産に適用される管理タグに基づいてポリシーを定義できるようにすることで、Unity Catalog の既存の特権モデルを補完します。これにより、ガバナンスが簡素化され、セキュリティ体制が強化されます。
■ ABACを使用するメリットは以下の通りです。
- スケーラビリティ: タグを利用する事で個々に権限を設定することなくアクセス制御を大規模に管理することができます。
- 柔軟性: 各データアセットを変更せずにタグやポリシーを更新することで、ガバナンスを簡単に調整できます。
- 一元化されたガバナンス: カタログ、スキーマ、テーブルにまたがる統合モデルにより、ポリシー管理を簡素化します。
- セキュリティの向上: データ属性に基づいて動的にきめ細かなアクセス制御を実施します。
- 監査可能性: 包括的な監査ログを通じて、データアクセスのリアルタイムの可視性を維持します。
7. データの分類 (ベータ)
複合AIシステムを使用して、Unity Catalog内の任意のテーブルをスキャンして自動的に分類してタグ付けを実施する機能です。
この機能と属性ベースのアクセス制御(ABAC)を利用することにより以下が実施可能になります。
- 機密データが含まれているかの確認
- 行レベル/列レベルのセキュリティ設定
- テーブルレベルのセキュリティ
■ 設定方法は以下になります。
1. 画面右上のユーザー名をクリックして、プレビューを選択
2. Data Classificationを有効化
3. Unity Catalogを開いて、任意のカタログ/スキーマの詳細画面を表示
4. データの分類を有効化
※1 プレビュー画面んでタグポリシーの有効化が必要になります(6/16時点ではプレビュー画面に無かったため、今後も無い可能性があります)。
※2 すべてのシステムタグ(class.で始まる)ポリシーに対して「割り当てる」権限が必要です。
※3 タグを割り当てるカタログ、スキーマ、テーブルに対して「APPLY TAG」権限が必要です。
8. Vector Searchのストレージ最適化エンドポイントオプションが利用可能に (パブリックプレビュー)
Mosaic AI Vector Searchにストレージ最適化エンドポイントのオプションが追加されました。
メリットとデメリットは以下の通りです。
■ メリット
- 768次元で10億ベクトル数以上と大容量のデータに対応しています(標準は768次元で3億2000万ベクトル数まで対応しています)。
- インデックス作成速度が10~20倍高速です。
- 登録しているベクトル数(データ数)が多い(具体的には、768次元で約920万以上のベクトル数、3072次元で約230万以上のベクトル数)場合は、標準より時間単価のコンピュート費用が安くなります(us-west-2リージョンで計算)。
- 使用するストレージ容量(GB)が多い場合(具体的には、約38GB以上の場合)は、標準より月単価のストレージ費用が安くなります(us-west-2リージョンで計算)。
- 登録しているベクトル数(データ数)が削除されて減少した場合に、自動的にスケールダウンして時間単価のコンピュート費用が安くなります(標準は自動的にスケールダウンしないため、手動でのエンドポイントの再作成が必要)。
■ デメリット
- 対応しているリージョンが2025/6/3時点で、us-east-1、us-east-2、us-west-2のみです。
- 検索速度が少し(クエリのレイテンシで約250ミリ秒)遅くなります。
- 登録しているベクトル数(データ数)が少ない場合は、標準より時間単価のコンピュート費用が高くなります。
- 使用するストレージ容量(GB)が少ない場合は、月単価のストレージ費用が高くなります。