はじめに
最近、Fabricについて勉強してますが、少し難しいと思ってたことをメモがてら公開します!
Microsoft Fabric は、データ統合、分析、BI(ビジネスインテリジェンス)を一元的に実現するプラットフォームです。
今回は自分が当初よくわからなかった Fabric における
レイクハウス、データウェアハウス、データレイク
の違いについて、自分なりの解釈で説明します。
間違っていたらコメントで教えていただけるとありがたいです!
Microsoft Fabric の全体像
Fabric は、データの取り込みから保存、変換、分析、可視化までをひとまとめにできる、かなり便利なプラットフォームです。
その中でも、よく登場する3つの「データ保存リソース」について紹介します。
データウェアハウス(DWH)
一般的なRDB(リレーショナルデータベース)よりも、データを効率よく保存・集計・検索することに特化したDBというイメージです。
- 伝統的なRDBと似ていますが、列指向ストレージを採用していて、たとえば「日付」などの同じ値が続く列を圧縮することで効率的に保存できます。
- 定型レポートや業務データの分析に強く、安定して高速なクエリが可能。
データが「整っている」「構造化されている」前提の世界。
データレイク
OneDriveやSharePointのような「ファイル置き場」に近いイメージです。
- 構造化、半構造化、非構造化など、あらゆる形式のデータをまとめて保存可能。
- 基本的には「とりあえず全部突っ込んでおけ!」というスタンスで、あとから整形・加工して使うことが前提です。
Azure の Data Lake Storage Gen2 や Blob Storage に保存されているファイルと同じような感じで、分析ツールから後で加工・参照する流れです。
レイクハウス(Lakehouse)
レイクハウスは、データウェアハウスとデータレイクの“いいとこどり”を狙ったハイブリッドな仕組みです。
- 見た目はテーブルっぽく扱えるけど、実体は Parquet 形式のファイル(列指向の圧縮ファイル)です。
- **Delta(データ管理のフレームワーク)**を使って、Parquetファイルをテーブルのように操作できるようにしています。
- 実行エンジンとしては Spark を使って、SQLみたいにクエリを投げて集計が可能。
「保存先はデータレイクだけど、使い方はDWHっぽい」というのがレイクハウスです。
データの整形やクレンジングも同じ環境内でできて便利。
Fabric ではこのレイクハウスがかなり推されていて、**全部これ一本でできちゃう!**という理想に近い存在です。
🔍 ざっくり比較表
コンポーネント | 保存できるデータの種類 | 主な利用目的 | 特徴 |
---|---|---|---|
データウェアハウス | 主に構造化データ | 定型レポート作成や業務データ分析 | 高速なクエリ、安定性、整合性の確保 |
データレイク | 半構造化、非構造化データ | 大量データの低コスト保存と後処理 | 柔軟なデータ取り込み、拡張性、低コスト |
レイクハウス | 構造化/非構造化混在 | 柔軟なデータ解析と高速クエリ | 柔軟性と管理機能を両立、ハイブリッド設計 |
✅ まとめ
- データウェアハウス → 構造化された業務データをガチッと管理・分析したいときに。
- データレイク → いろんな形式のデータをまとめて保存しておきたいときに。
- レイクハウス → 両方の良さをバランスよく使いたいときに。Fabricでは特にこれが中心!
「とりあえず何から学ぶべき?」という人には、Fabricのストレージではまずレイクハウスの理解がおすすめです!
📝 補足
これは Fabric 初心者の自分が、手探りで調べて理解した内容をまとめたものです。
正確さに欠ける部分があるかもしれませんので、ぜひコメントなどでご指摘いただけると嬉しいです!
最後まで読んでいただきありがとうございました!