Databricks記事のまとめページ(その2)

Databricks

Last updated at 2025-10-14Posted at 2023-09-24

これまでに自身で翻訳した or 投稿したDatabricks記事をまとめています。随時更新していきます。

記事数が増えたので2つに分割しました。

その1はこちら。

DatabricksとSpark UIで学ぶSparkのパーティション

Apache Spark徹底入門

2024/4/12に翔泳社よりApache Spark徹底入門を出版しました！

以下では書籍で触れているサンプルをウォークスルーしています。

機能説明

Apache Spark

Apace SparkはDatabricks創始者たちが開発した並列分散処理フレームワークです。

2024/4/12に翔泳社よりApache Spark徹底入門を出版します！

Delta Lake

Delta Lakeはデータレイクにパフォーマンスとガバナンスを提供するストレージレイヤーソフトウェアです。クラウドオブジェクトストレージ上でACIDトランザクションを実現し、検索・更新を高速にするための様々な最適化機能を提供します。

Auto Loader

Sparkの構造化ストリーミングとDelta Lakeを組み合わせることで、大量データを高速にロードすることができます。

Unity Catalog

Unity Catalogを用いることで、レイクハウスのアセットに対するセキュリティ、ガバナンス管理がシンプルになります。

レイクハウスモニタリング

レイクハウスモニタリングはDatabricksにおける監視ソリューションです。

Lakebase

DatabricksマネージドのPostgreSQLです。

LakeFlow

Databricksにおけるデータエンジニアリングの機能はLakeFlowに統合されていきます。

DLT(Delta Live Tables)

Delta Live TablesはDLTに名称変更しました。Delta LakeをベースとしたETLパイプライン開発・運用のためのツールです。

Delta Sharing

Delta Sharingはセキュアにデータ共有を行うためのプロトコルであり、社外で利用されているクライアントからDelta Lakeのデータにセキュアにアクセスすることが可能となります。

MLflow

MLflowは機械学習モデルのライフサイクル管理を容易にするソフトウェアです。機械学習モデルを自動でトラッキングし、モデルのステータス管理を容易にします。

Mosaic AI

生成AI関連の機能は今ではMosaic AIと呼ばれています。

Databricks One

Databricks Oneのパブリックプレビュー: 全社員がデータとAIを活用できる新体験

Agent Bricks

特定のユースケース向けのAIエージェントを構築、最適化できるノーコードソリューションです。

Databricks Apps

Databricks AI/BI

Databricks Feature Store

Databricks Feature Storeは集中管理された特徴量リポジトリです。企業における特徴量発見と共有を可能にし、モデルトレーニングと推論に使われる特徴量計算に同一のコードが確実に使用されるようにします。

Databricks SQL

Databricks SQLは、データレイクに対するBIを容易に行えるようにするためのビルトインのSQL開発環境です。

Databricks AutoML

ガラスボックスアプローチを採用しているAutoMLです。学習結果はすべてPythonノートブックとして出力されるので、ロジックの確認、修正が容易に行えます。

Databricks Partner Connect

Databricks Partner Connectは、お使いのDatabricksレイクハウスと、様々な検証済みデータ、分析、AIツールを容易に連携できるワンストップのポータルです。

Databricksマーケットプレース

データやノートブックなどをやり取りできるマーケットプレースです。