はじめに
本記事はDatabricks アドベントカレンダー2024 7日目の記事です。
本記事ではAzure Databricksを扱っています。
投稿日時点ではDatabricks on AWSなどでは利用できない機能もでてきます。
Azure Databricks と Microsoft Fabricの関係性
Azure Databricks と Microsoft Fabric は Lakehouse をコンセプトとしたデータをEnd-to-Endで扱える製品です。
DatabricksにはMicrosoftも出資をしていて、ファーストパーティ製品としてAzure上で扱えます。ファーストパーティ製品なので、当然、Microsoft Learnのドキュメントも用意されています。
Databricks公式のドキュメントページをみても、Azure版だけ、Azure Databricks となっていて、その他はDatabricks on AWS/Google Cloudという表記になっています。
Microsoft Dataplatformの仲間
Azure Databricks と Microsoft Fabric は、Microsoft Dataplatformの仲間でもあり当然ライバルでもあります。Lakehouseというコンセプトも同じものを標榜していることもあり、ユーザーも製品選定としてどちらを選ぶか迷うものです。
Microsoft Fabric発表当初、2024年3月のMicrosoft AI Tourが開催されたころは下図のように、事業部門で働いしてるビジネスユーザ(非IT/非エンジニア)はMicrosoft Fabricを、データサイエンティストや、データエンジニアなどのProユーザーはAzure Databricksを使いましょうというような図を頻繁に見かけました。
Microsoft Fabricは製品の幅がどんどん広がっている
ただこの一年でも両製品はどんどん機能を増やしていっており、Microsoft FabricはRealtime系のシナリオがどんどん充実していっているようですし(ついていけてない😅)、つい最近はSQL databaseもFabric内で順次提供開始されるとアナウンスがあり、OLAPのシナリオだけでなく、OLTPもカバーをし始めました。Proユーザーも十分に使う価値のある製品となっていますし、引き続きPower BIやDataflowを中心にビジネスユーザーがセルフサービスで行うシナリオは強いです✊
Azure Databricksも機能の幅が広がっている
Azure Databricksは逆にビジネスユーザーもさわりやすい機能が増えてきているように感じます。中でもAI/BIが代表的でしょうか。Microsoft FabricにはPower BIがありますが、DatabricksもRedashを買収してDashboard作成機能が拡充してきており、AIを活用したBI → AI/BIが実装されました。Proユーザーだけにさわらせておくのはもったいないようになってきていますよね😊もちろん、RAGの構築やFine Tuningなど専門的な開発の機能も充実しています。
データ連携の方法
また、それぞれOneLakeやUnity Catalogというデータカタログ/メタストアを持っている点も注目です。こちらも、以前はAzure Databricks側からOneLakeのデータを読み込むことしかできなかったのですが、最近のアップデートで、Unity Catalogにあるテーブルをミラーリングできるようになり、Databricksでつくられたデータ資産をそのまま利用することができるようになりました。
では、我々はどう考えるべきか?🧐
どちらの製品がすぐれているのか。どちらの製品が使いやすいのか。
その答えは当分でそうにありません。
ビジネスユーザー、データエンジニア、データサイエンティストはそれぞれ何が使いやすいのか。管理のしやすさも考慮すべきだし、データガバナンスやデータセキュリティも製品選定のポイントです。ID管理の容易さも重要ですよね。そのあたりの機能や設計も日々増えていますし、変更になっています。
DATA GOBLINS
Microsoft Power BIやMicrosoft Fabricについての記事を投稿しているブログ、DATA GOBLINSからいくつか文章を引用します。
DON’T BE OVERWHELMED!
There are a lot of new, valuable features, but you don’t have to learn / know everything, right now!
日本語訳
圧倒されないでください!
新しい便利な機能がたくさんありますが、すべてを今すぐ覚える必要はありません!
Don’t worry. If you don't have time or energy to do this now, Fabric isn't going anywhere. It's just the beginning! It’s not a race and you shouldn’t let yourself feel pressured.
日本語訳
心配しないでください。もし今、時間やエネルギーがなければ、Fabricはどこにも行きません。これは始まりに過ぎません! 競争ではありませんので、プレッシャーを感じる必要はありません。
このブログはMicrosoft Fabricが発表され、今に至るまで毎日のように発表があり、アップデートがあり、それについていくのが大変、理解をするのが大変というユーザーに向けて書かれた文章です。いま、Databricksも同様に、Mosaic AIの統合やAI/BIなど、すべての世界観についていくのが難しい、大変になっています。あたりまえのように製品選定も大変です。
そんなときは、上記の文章を思い出し、焦らず、ゆっくり学習を進めましょう。ドキュメントも丁寧に書かれているし、Microsoft FabricもDatabricksも、ユーザーコミュニティが活発です。ブログもたくさん投稿されています。
またすべての機能を使うユーザーはおそらくあまり数は多くない。データの取り込みからBI、機械学習、RAGなど、データのEnd-toEndをカバーしている製品ですから。すべてを理解する必要はありません。
まとめ
現時点で使い分けなんてありません!
可能であれば、両方さわり、両方の進化を楽しみましょう😊
両製品はお互いを補完し、競い合う、強敵と書いて友と読む的な関係です。
Lakehouseですから、データ資産はDelta形式でAzure Data Lake Storageに保管されています。
そのLakehouseに対してQueryを書く、機械学習を行う、Dashboardをつくる…はそのときどきのお気に入りの製品で行えばよいのです。Delta形式でのStoreをいかに組織で定着させるか、これがまずはフォーカスポイントです。
組織の文化や、すでに取り入れている製品構成、人材のスキルセットを考えて、Lakehouseライフを楽しみましょう✊