2
3

Databricks記事のまとめページ(その2)

Last updated at Posted at 2023-09-24

これまでに自身で翻訳した or 投稿したDatabricks記事をまとめています。随時更新していきます。

記事数が増えたので2つに分割しました。

その1はこちら

Apache Spark徹底入門

2024/4/12に翔泳社よりApache Spark徹底入門を出版しました!

以下では書籍で触れているサンプルをウォークスルーしています。

機能説明

Apache Spark

Apace SparkはDatabricks創始者たちが開発した並列分散処理フレームワークです。

2024/4/12に翔泳社よりApache Spark徹底入門を出版します!

Delta Lake

Delta Lakeはデータレイクにパフォーマンスとガバナンスを提供するストレージレイヤーソフトウェアです。クラウドオブジェクトストレージ上でACIDトランザクションを実現し、検索・更新を高速にするための様々な最適化機能を提供します。

Auto Loader

Sparkの構造化ストリーミングとDelta Lakeを組み合わせることで、大量データを高速にロードすることができます。

Unity Catalog

Unity Catalogを用いることで、レイクハウスのアセットに対するセキュリティ、ガバナンス管理がシンプルになります。

LakeFlow

Databricksにおけるデータエンジニアリングの機能はLakeFlowに統合されていきます。

Delta Live Tables

Delta Live TablesはDelta LakeをベースとしたETLパイプライン開発・運用のためのツールです。

Delta Sharing

Delta Sharingはセキュアにデータ共有を行うためのプロトコルであり、社外で利用されているクライアントからDelta Lakeのデータにセキュアにアクセスすることが可能となります。

MLflow

MLflowは機械学習モデルのライフサイクル管理を容易にするソフトウェアです。機械学習モデルを自動でトラッキングし、モデルのステータス管理を容易にします。

Mosaic AI

生成AI関連の機能は今ではMosaic AIと呼ばれています。

Databricks AI/BI

Databricks Feature Store

Databricks Feature Storeは集中管理された特徴量リポジトリです。企業における特徴量発見と共有を可能にし、モデルトレーニングと推論に使われる特徴量計算に同一のコードが確実に使用されるようにします。

Databricks SQL

Databricks SQLは、データレイクに対するBIを容易に行えるようにするためのビルトインのSQL開発環境です。

Databricks AutoML

ガラスボックスアプローチを採用しているAutoMLです。学習結果はすべてPythonノートブックとして出力されるので、ロジックの確認、修正が容易に行えます。

Databricks Partner Connect

Databricks Partner Connectは、お使いのDatabricksレイクハウスと、様々な検証済みデータ、分析、AIツールを容易に連携できるワンストップのポータルです。

Databricksマーケットプレイス

データやノートブックなどをやり取りできるマーケットプレイスです。

Databricksクイックスタートガイド

Databricksクイックスタートガイド

Databricks無料トライアル

Databricks無料トライアル

2
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
3