Fabricとデータブリックスの連携と最新技術
2024年5月24日にMicrosoft Tech Brief : Fabric と Databricks のコラボレーションが生み出す生成AI時代の新たなデータ活用戦略 (5月アップデート版)を受講したので、その内容を共有しようと思います!
注 : 勉強中の者がウェビナーで聞いた内容をまとめただけなので、詳しくは公式情報を参照いただければと思います。
当日の内容に入る前に・・・
Fabricとは
Microsoft Fabricは、データインテリジェンスプラットフォームです。データの収集、管理、分析、共有を一元化し、ビジネスインテリジェンス(BI)と分析のプロセスを簡素化することを目的としています。Fabricは、データサイエンティスト、アナリスト、ビジネスユーザーが協力して作業できる統合環境を提供しています。
データブリックスとは
データブリックスは、Apache Sparkをベースとしたデータ分析プラットフォームで、ビッグデータと機械学習のワークフローを効率化します。データの統合、処理、分析、機械学習モデルのトレーニングとデプロイを一元化し、企業がデータから価値を引き出すための強力なツールセットを提供します。
Fabricとデータブリックスの連携(ざっくり)
Fabricとデータブリックスは、シームレスな連携を提供することで、データ管理と分析の効率を飛躍的に向上させます(つまり凄いってことです)。以下のようなメリットがあります。
- データの一元管理: データのクローンを作成する必要がなく、Fabricとデータブリックス間で直接データを共有・操作できます。
- 統合環境: データサイエンティストやアナリストが利用するツールを一元化し、データの収集から分析、共有までのプロセスをスムーズに行えます。
- 柔軟なデータ操作: Fabricからデータブリックスのカタログを選択し、自分の接続権限を持つデータを操作することができます。
最近のアップデート内容
生成AIを活用したレポートの深掘り
作成したレポートを共有「された側」も、生成AIを使ってレポートの内容をさらに深掘りすることができます。レポートの中から特に報告したいポイントを絞って生成AIに相談し、そこからさらに表形式でまとめる依頼も可能です。例えば、もらったレポートを使って上司の報告する機会があったとして、特にどのポイントに注目すべきとか、どのポイントを深くおさえておかないといけないとか、レポートをさらにまとめるとかいう対策ができるということです。
データクレンジングのサポート
ユーザーの「自分の見たい形でデータをクレンジングしたい」という要望にも対応しています。Copilot機能を使って、対象データの取得、特定の年数に絞る、不要な列を省く、グルーピングするなどのフィルタリングを自然言語で指示することができます。
EXPLAIN機能とオートフィックス機能
データクエリに対して、EXPLAINボタンを押すとSQLのコードに説明文が追加され、視認性が向上します。また、エラーのオートフィックス機能もあり、自動で修正してくれます。
データに直接チャットする機能
データブリックスには、データに直接チャットする機能もあります。AIスキルのチャットルームを作成し、対象のデータを選択して検索すると、生成AIが裏でSQL文を作成して回答してくれます。例えば、「昨日の売上を教えて」といった質問に対して、すぐに必要な情報を取得できます。SQLなどがかけない方でも自然言語で質問できるのはメリット大きいですよね。
自然言語でダッシュボードやグラフを作成
自然言語を使ってダッシュボードやグラフを簡単に作成することができます。例えば、「昨年の売上推移をグラフにして」といった指示を出すことで、生成AIが自動的にデータを解析し、視覚的に分かりやすい形式で情報を提供します。これにより、データ分析の専門知識がなくても、直感的にデータの洞察を得ることが可能です。個人的に私はグラフ作るの下手くそ(お手本のようなクソダサグラフが爆誕する)なので、この機能いいなぁと思いました。
データブリックスとFabricのシームレスな連携
データブリックスは、Fabricとシームレスに連携できます!!データをクローンする必要がなく、簡単にデータの共有と操作が可能です。また、以下のような新機能も提供されています。
- データモデルの共有: ワンクリックでデータモデルを公開・共有できます。UnityCatalogを通じて、FabricやBigQuery、Snowflakeとも連携可能です。
- Power BI Desktopとの連携: Power BI Desktopをダウンロードし、FabricやDatabricksのデータを操作できます。
- カタログ選択: FabricからDatabricksのカタログを選択し、自分の接続権限を持つデータを操作できます。
まとめ
データブリックスとFabricの連携は、強力なプラットフォームを提供しているようです。Microsoftは最近Fabricにかなり力を入れているらしいと聞いているので、今後もどんどんアップデートがあるものかと思います。楽しみですね!
今データ関係の勉強をしている途中なので、どんどん情報を仕入れようと思ってます。