Power BIアドベントカレンダー 2023のシリーズ3を埋めなくてはいけない空気を感じたので投稿(え?そんなことしなくていい??)。
JPPC(Japan Power Platform Conference)2023の1日目のFabricワークショップに参加。
自分が気になった点のメモ(Qiitaの私物化)。
- Microsoft Fabric全般
- Power BIの成功を受け、データ関連の他のPaaS製品(テクノロジーや知識のサイロ化が起きていた)をSaaS化へ。それらを統合し、Power BIライクなUIで利用できるようにしたのがMicrosoft Fabric。
- Fabricによりペルソナ(アナリスト、データエンジニア、etc)のコラボレーションが進む。同一ワークロード内でもノートブックの同時編集のようにコラボレーションが容易に。
- Fabric上では、Fabric上のワークロードすべてが同じdelta parquet形式のファイルにアクセス可能。ストレージとコンピューティングを分けているモダンな設計となっている。また、Delta Lakeには接続文字列で外部からもアクセス可能。
- OneLake、Delta Lake
- OneLakeには構造化、半構造化、非構造化データのすべてを格納可能。
- parquet形式は、列方向で圧縮をかけているため、CSVよりもファイルサイズを小さくできる。Fabric上ではVerti-parquet(Power BIのvertipaq + parquetみたいなもの)でさらに圧縮している。Verti-parquetは、ざっくり言うとデータを並べ替えて圧縮効率を高めている。
- Data Factory
- Data Factoryはざっくり言うと、データのためのPower Automate。処理の成功/失敗に応じてその後を分岐させたり、ループ処理等が可能。
- Data Factoryにより、ETLがPower Query(M)、Spark, SQL, Rその他の得意なもので可能に。
- Ctrl + Shift + Nで詳細エディターを開ける。よく使うので覚えて。
- Fabricには処理のスロットリングを防ぐために、スムージング(タスクをスケジュールし負荷を分散)、バースティング(一時的に処理能力を増強)という仕組みが自動的に働いている。
- Power BI
- Fabricが自動生成するセマンティック モデル(デフォルト)は、モデルを調べられなかったり、XLMAエンドポイントが使えないのでおすすめしない。
- Direct Lakeモードについて。Direct Queryモードとインポートモードのいいとこどり。データ更新が不要で、インポートモード並みのクエリ パフォーマンス。
- 注意:SQL分析エンドポイントでViewを作ってそれをPower BIのデータソースにすると、Direct LakeモードがDirect Queryモードになってしまう。
- Factテーブルでは使わない列は削除するように。その方がセマンティック モデルのサイズが小さくなるし、DAXエンジンのスキャンが効率化されパフォーマンスが向上する。
- レポート レベルメジャーを使えば、ライブ接続したモデルにメジャーを追加することが可能。自分用に追加している。
- Copilot
- スマート説明は良さげ。他は省略。
会社でFabric使ってみたいよ。