0

@seiya-i(seiya i)

DatabricksとLakehouseの概要

Databricks

Last updated at 2025-07-26Posted at 2025-07-26

はじめに

本記事では、転職面接先で活用されている「Databricks」および「Lakehouseアーキテクチャ」について、
その概要や特徴をまとめています。

Databricksとは

Databricksは、Apache Sparkの創始者たちによって設立された企業であり、
ビッグデータ分析、機械学習、データエンジニアリングを統合的にサポートするクラウドベースのプラットフォームを提供しています。

主な特徴:

Apache Sparkをベースにした高速分散処理エンジン
ノートブックベースでのコラボレーション
データエンジニア、データサイエンティスト、ビジネスアナリストが同一環境で作業可能
クラウド環境（Azure、AWS、GCP）で利用可能

Databricksの主なメリット

1. オールインワンなデータ＆AIプラットフォーム

データエンジニアリング、データサイエンス、機械学習、BI分析まで一貫して対応。
ノートブック（Python/SQL/Scala/R）を共有しながらチームで開発可能。

2. Delta Lakeによる高性能・高信頼性

ACIDトランザクション対応のストレージレイヤー。
タイムトラベルやスキーマエボリューションが可能。
圧縮・インデックス・最適化（Z-Ordering）による高速クエリ実行。

3. マルチクラウド対応

AWS、Azure、GCPの各クラウドに対応。
クラウドロックインを避け、同一のUI/UXを提供。

4. 機械学習やガバナンス機能が充実

MLflowによるMLライフサイクル管理。
Unity Catalogによるカタログ・ガバナンス管理。

DatabricksとAWS/GCPネイティブサービスとの違い

項目	Databricks	AWS (Redshift, EMR, SageMaker)	GCP (BigQuery, Vertex AI, Dataflow)
アーキテクチャ	Lakehouse（データレイク+DWH）	DWH+ETL個別構成	DWH中心、サービス分離
分析統合性	ノートブック、ML、ETL一体化	分離構成	分離構成
分散処理	Apache Spark	EMR (Spark), Glue等	Dataflow, Beam等
マルチクラウド対応	✔️	❌ AWS専用	❌ GCP専用
MLライフサイクル	MLflow標準搭載	SageMaker等を組み合わせ	Vertex AI
カタログ・ガバナンス	Unity Catalog	Glue Data Catalog等	Data Catalog等

どんなケースにDatabricksが有効か？

シナリオ	Databricksの強み
データとAIを一体で扱いたい	ノートブック + Spark + MLflow による統合開発
非構造化データも扱いたい	Delta Lake による柔軟なデータ管理
チーム開発で分析基盤を構築したい	ノートブック共有、ガバナンス設計
将来的にクラウド移行の可能性がある	マルチクラウド対応の柔軟性

Lakehouseとは

Lakehouseは、データレイクの柔軟性とデータウェアハウスの構造化・トランザクション処理能力を組み合わせた新しいアーキテクチャです。

従来の課題:

データレイクは柔軟だがデータ品質管理が困難
DWHは構造化されているがコストやスケーラビリティに課題

Lakehouseの利点:

構造化・非構造化データの統合管理
ACIDトランザクションによる信頼性
バッチ処理とストリーム処理の統合

Databricks Lakehouse Platformの活用事例

Databricksを基盤とするLakehouseアーキテクチャは、以下のような業務に活用されています。

ETL/ELTパイプラインの構築と自動化
機械学習モデルのトレーニングとデプロイ
BIツールへのデータ提供（Tableau, Power BI など）
クラウド移行やレガシーDWHからのマイグレーション

[個人的メモ]BigQueryからLakehouseへの移行: メリット・デメリットと移行手順

移行のメリット

柔軟性の向上: 構造化データと非構造化データの統合が容易で、様々な分析ニーズに対応可能。
リアルタイム性の向上: ストリーミングデータ処理やバッチ処理を同一プラットフォーム上でシームレスに実行可能。
コスト効率の改善: クラウドストレージ上で動作し、ストレージとコンピュートを分離できるため、運用コストの最適化が可能。
機械学習・AIとの統合性: ノートブックやMLflowなどを活用して機械学習の開発・運用が容易に行える。

移行のデメリット・課題

学習コスト: DatabricksやSpark、Delta Lakeといった新たな技術スタックの習得が必要。
既存ワークロードの移行コスト: SQLやBIレポートの修正が必要な場合がある。
セキュリティ設計の見直し: GCPのIAMとDatabricksのアクセス制御の違いを理解し、再設計が必要になる場合がある。

移行手順（例）

現行環境の棚卸し
- BigQuery上のデータセット、テーブル、ビュー、スクリプト、BIツール連携などを整理。
移行計画の策定
- ワークロードの優先度付け、対象スキーマの定義、スケジュールとリソース確保。
Databricks環境の構築
- クラウド（Azure/AWS/GCP）上でDatabricksワークスペースを構築。
- Unity CatalogやDelta Lakeなどの基盤技術を設定。
データ移行
- BigQueryからParquet形式やCSV形式でデータをエクスポートし、クラウドストレージ経由でインポート。
- Deltaテーブルとして再構築。
パイプラインと処理ロジックの移行
- ETL/ELTジョブをSpark、dbt、Airflowなどで再実装。
- データ品質や依存関係をテスト。
BIツールとの連携確認
- TableauやPower BIなどのデータソース設定をDatabricksに切り替え。
ユーザートレーニング・内製化支援
- 新しいデータ基盤に関する社内トレーニングを実施。

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0