はじめに
Microsoft Build 2023 で発表された SaaS 型のデータ分析プラットフォーム Microsoft Fabric について興味をお持ちの方も多いと思います
この記事では、現在 Power BI をご利用の方からの視点で、Microsoft Fabric がどのように活用できそうか? 今のPower BI と何がちがうのか? どこで何を設定すればいいのか? を Power BI と対比させながら解説し、既に Qiita 記事シリーズ化している訪日外客数レポートをFabric で作成してみたいと思います
Microsoft Fabric については、下記 Qiita の記事が全体像をわかりやすく解説していますので参照下さい
Microsoft Fabric の 醍醐味
Microsoft Fabric は、データエンジニア、データサイエンティスト、データアナリスト、ビジネスユーザといったデータ活用に関わる全ての役割の人がひとつのプラットフォームを利用できるコンセプトですが、
その中でも特に、データアナリストやビジネスユーザといった市民開発者レベルのユーザにとって強力なデータ活用プラットフォームとなると考えています
企業の業務データ活用現場を見ていると、実際にはそんなにきれいに役割はわかれていないのが実状です
IT部門から公開された実績データだけでなく、業務側にしかないデータを紐づけて分析したいとなれば、データエンジニア的なデータ結合や加工作業から可視化分析、データサイエンティストさながらに機械学習を用いた分析まで、ビジネスユーザが 1人が何役もこなして少数精鋭で作業しており、
しかもたいしたマシンパワーもない業務用PCで、データ分析ツールも入っておらず、Excel等を駆使して頑張っておられる業務現場が日本の企業にはまだまだ多いのです!!
本当のデータ活用は、可視化だけでは実現しずらく
可視化と同時に、必要なデータに自由に触れてデータ加工できる作業環境がビジネスユーザに与えられているかが非常に重要です
Microsoft Fabric は、そのようなビジネスユーザが、
GUI による直感的な操作や、AI Copilot によるの強力な技術サポートを受けることで、より多くのタスクを自分自身で簡単に実装できて、企業のデータ活用を加速させるツールと考えています
Microsoft Fabric 利用にあたり覚えておくべき用語と概要
Power BI ユーザ視点では、聞きなれない用語や機能が多数でてきますが、
レポート作成やデータ分析等のデータ活用観点でも、以下は最低限理解しておいた方がよいでしょう
OneLake:
・組織全体のための単一の統合されたSaaSデータレイクで、OneLake ですべての組織の構造化、半構造化、非構造化のデータを管理します
ワークスペース:
・Microsoft Fabric アイテム(レイクハウス、レポート、データ操作のためのフロー等)のコンテナーとして使用されるものです
・共有ワークスペースは、複数のユーザーやグループがアクセスできるもので、Microsoft Fabric 管理者が作成や配布を管理できます
レイクハウス:
・データ レイク ストレージの柔軟性とデータ ウェアハウス分析を組み合わせたものです
・レイクハウスに必要なデータを格納し、Fabricに準備された様々な分析ツールやプログラミング言語で使用できます
・ワークスペースに複数のレイクハウスを作成できますが、レポート作成に必要なデータは1つのレイクハウスに格納されている必要があるので、目的別にレイクハウスを作成するのがよさそうです
Microsoft Fabric が Power BI よりすごくなったポイント
Power BI Desktop から Microsoft Fabric に進化したことで、データ活用の観点から各段に便利になったポイントを以下に整理します
★ポイント1:
Power Query エディター取り込み+クレンジングしたデータをレイクハウスに保存できるようになった
Fabric で登場した新しい 「データフロー Gen2 」により、Power BI のデータセットとなるデータ(Delta Parquet 書式) がレイクハウスにロードされ、他のレポートやアドホックな分析にも自由に活用できるようになりました!
★ポイント2:
複数のデータ取り込みやデータ加工処理をパイプライン管理できるようになった
データ取り込みやクレンジング処理をデータフローGen2 で保存することにより、それらを繋げてジョブフローとして、処理の前後制御、エラーハンドリング、スケジュール実行等のパイプライン管理ができるようになりました
定期実行にして自動化することで、ルーチンワークから解放されます!
★ポイント3:
ショートカットで既存データを2重持ちせずにデータ分析に利用できる
業務実績データは既に別システム(ストレージ)で管理されていることが多く、その実績データと手元のデータを紐づけて新たな切り口で分析したい場合、別システムから必要なデータを抽出して手元にコピーして分析していることが多かったはず
ショートカット機能を利用することで、このデータ抽出やコピー、容量確保から解放され、本来注力すべきデータ分析作業に集中できます!
Microsoft Fabric と Power BI Desktop 操作対比
Power BI では、Power Query エディターや Power BI Desktop のビューを切り替えて各作業を行っていましたが、
Microsoft Fabric では、更に多くの機能があるため、各操作の入り口が少しずつ異なりますが、その中での操作はPower BIでの操作感そのままなので、入り口を覚えてしまえば、Power BI ユーザにとってはすぐに馴染めると思います
Microsoft Fabric で 訪日外客数データ分析体験
本書では「訪日外客数データで Power BI レポート作成シリーズ」のクレンジング編と基本編をMicrosoft Fabricを使って操作するとどうなるかを比較体験していきたいと思います
また、この体験手順は、本家のチュートリアルを参考にしています
1. Microsoft Fabric を始める
こちらの https://aka.ms/TryFabric にアクセスし、試用版を開始してください
2. 新しいワークスペースを作成
① 左メニューから「ワークスペース」を選択し、「+新しいワークスペース」ボタンをクリック
② ワークスペースの名前を入力し、「適用」ボタンをクリック
※ワークスペース名は、Fabric テナント内でユニークな名前をつける
3. データを格納するレイクハウスを作成
① 「+新規」ボタンから「すべて表示」を選択
② 「レイクハウス」をクリックし、レイクハウス名を入力
例)lakehouse_ForeignVisitors
4. 訪日外客数データの取り込みとクレンジング
訪日外客数データは、日本政府観光局が公開しているオープンデータの国/月別の訪日外客数データを使います
Power BI Desktop では、Power Query エディターで操作していたデータ取り込みとクレンジングは、
Fabric では、「データフロー Gen2」という機能を使いますが、名前こそ変わっていますが、95% Power Query エディターです
① 「データフロー Gen2」を選択
② 「Excel からインポート」を選択
③ 「ファイルへのリンク」を選択し、「ファイルパスまたは URL」に以下 URL を指定し、「次へ」をクリック
https://www.jnto.go.jp/statistics/data/since2003_visitor_arrivals.xlsx
ここからは Power BI Desktop の 操作と一緒ですが、この記事でも途中まで手順書きますね
④ [2003-2019] データの作成
・[2003-2019] の代表年シートとして、[2019] を選択し、「作成」 をクリック
・適用したステップの一番上の[ソース] 以外のステップは一旦消す(ステップ左の×をクリック)
・プロパティ名を [2003-2019] に変更
・不要なシートデータは削除する
・行の削減 > 行の削除 > 上位の行の削除 > 行数: 4
・行の削減 > 行の保持 > 上位の行の保持 > 行数: 17
・[Data] 列の展開ボタンをクリック
・このように Power BI Desktop と全く操作手順は同じなので、あとの手順はこちらの記事を参照して進めて下さい
⑤ [2020~] データの作成
・データの取得 > Excel ブック > 「ファイルパスまたは URL」に以下 URL を指定し、「次へ」をクリック
https://www.jnto.go.jp/statistics/data/since2003_visitor_arrivals.xlsx
・[2020~] の代表年シートとして、[2020] を選択し、「次へ」 をクリック
・あとの手順はこちらの記事を参照して進めて下さい
⑥ [2003-2019] と [2020~] データを縦結合
・ホーム > 変換 > クエリをアペンドする > クエリを新規クエリとしてアペンドする
・最初のテーブルに [2003-2019]、2つ目のテーブルに [2020~] を選択して [OK] クリック
・プロパティで名前を [foreign_visitors] に変更する
5. 訪日外客数データをレイクハウスに格納
① 右下の「データ同期先」の「+」をクリックし、[レイクハウス]を選択
接続情報はそのまま「次へ」
② 出力先のワークスペース > レイクハウスを選択し、テーブル名を入力
③[更新方法] を [置換] に設定し、[設定の保存] を選択
④「公開」ボタンをクリックし、レイクハウスへ出力実行
⑤ データフローを右上の×ボタンで閉じ、リストからプロパティを開き、データフローに名前をつけて保存
⑥ レイクハウスを開き、訪日外客数データが作成されていることを確認
6. 国マスタの取り込みとクレンジング
国マスタは、Github に上げているデータを使用します
① レイクハウス画面の左上の データを取得 > データフロー Gen2 を選択
② [TextファイルまたはCSVファイルからインポート]を選択
③「ファイルへのリンク」を選択し、「ファイルパスまたは URL」に以下 URL を指定し、「次へ」をクリック
https://raw.githubusercontent.com/mimocihz/powerbi_sample_report/main/data/country_master_v2.csv
④ 元のファイルのエンコードを[932:日本語(シフトJIS)]に変更して文字化けを直して、「作成」ボタンをクリック
7. 国マスタをレイクハウスに格納
① 「公開」ボタンをクリックし、レイクハウスへ出力実行
② データフローを右上の×ボタンで閉じ、リストからプロパティを開き、データフローに名前をつけて保存
③ レイクハウスを開き、国マスタが作成されていることを確認
※たまに反映が遅い時があり、追加したテーブルが「正体不明」と表示されるときがある
その場合は、左上の「最新の情報に更新」マークをクリックして反映されるのを待つ
8. データのリレーションを作成
Power BI Desktop でモデルビュー及びレポートビューで実施していたテーブル間のリレーションやDAXメジャー項目の作成は、Fabric では、レイクハウスの「SQL エンドポイント」画面にて行います
① レイクハウスから「SQL エンドポイント」に切り替える
② 下のタブで「モデル」モードに切り替える
③ [foreign_visitors] の [国名] から [Country_master_v2] の [国名] に向かってドラック&ドロップし、
リレーションシップを作成し、「確認」ボタンをクリック
注意
リレーションシップ作成時、多から1 のテーブルへドラッグ&ドロップしないと、
ファクト:ディメンション = 1 : 多という意図しないリレーションシップが作成されてしまう可能性あり
(これは2023年6月時点の状況です。そのうち改善されるでしょう)
9. レポートを作成
① レイクハウスの「SQL エンドポイント」の上のタブで「新しいレポート」を選択
見ておわかり頂けると思いますが、レポート作成は、Power BI Desktop のレポートビューそのものです
② 訪日外客数の時系列推移を可視化してみる
・視覚化ペインから「折れ線グラフ」を選択
・データペインの [foreign_visitors] から ビジュアルの X 軸:[年月]、Y 軸:[人数]をドラック&ドロップ
操作方法は Power BI Desktop とほぼ同じですので、下記のQiita記事を参考に続きの可視化をして見て下さい
国マスタとのリレーションは、step:8 で既に作成済みですので、このレポートビューで操作は不要です
国マスタのようなマスタテーブルが存在する場合は、凡例にはマスタの項目を設定しましょう
③ 右上の保存ボタンをクリックし、レポートの名前を入力して、「保存」する
・ワークスペースのリストから、レポートを開くことができる
レポートを編集したい場合は「編集」ボタンをクリックして、編集モードで内容変更する
Power BI Desktop のあの機能はどこ行った?
操作方法は Power BI Desktop とほぼ同じですが、メジャー項目設定のように事前にレイクハウスの「SQLエンドポイント」画面で設定する機能がいくつかあります
筆者が、訪日外客数レポート作成をFabricで設定してる中で、あれ?あの機能どこ行った?と迷った機能 4 点について、Fabricではどこでどう設定するのかを共有します
★数値の桁数カンマ区切り等の書式設定はどこで設定できる?
Power BI Desktop では、データペインの対象項目を選択した状態で、「列ツール」> 「書式設定」で編集できた書式設定機能は、
Fabric では、レイクハウスの「SQLエンドポイント」画面で「モデル」モードにして、対象テーブル・項目を選択した状態で、右のプロパティの「書式設定」で編集できます
桁区切りを入れたい場合は、「桁区切り記号」を「はい」に設定します
★「計算列(新しい項目)」はどこで作成できる?
Power BI Desktop では、データペインから「新しい列」でDAX計算式を用いて新しい計算列を自由に追加できましたが、
Fabric では、レイクハウスの「SQLエンドポイント」画面では「メジャー項目」は作成できるますが、「計算列」を作成する機能は現時点(2023年6月)ありません
なので、列の追加は「データフロー Gen2 」= Power Query エディター側で作成しておく必要があります
少々不便になったように感じますが、実はPower BI Desktop 時代から列の追加は Power Query で実装することがパフォーマンスの観点でお勧めなのです
★日付の階層設定はどこで設定できる?
Power BI Desktop では、データペインの対象項目を選択して右クリックメニューで「階層の作成」ができましたが、
Fabric では、レイクハウスの「SQLエンドポイント」画面で「モデル」モードにして、対象テーブル・項目を選択した状態で、右のプロパティの「階層」で設定できます
ただし、Power BI Desktop 時には「日付の階層」という機能がありましたが、Fabric では現時点(2023年6月)ありませんので、階層型にしたい「年」「四半期」「月」などの項目を予め作成しておき、階層に設定する必要があります
また、このような日付階層は、カレンダーマスタを作成し、そこに集中管理させることが望ましいです
★棒グラフ等のビジュアルでの軸の並べ替えはどこて設定できる?
Power BI Desktop では、各ビジュアルの右上のプロパティから「軸の並べ替え」ができるビジュアルもありましたが、
Fabric では現時点(2023年6月)ありません
Power BI Desktop 時代からの以下のQiita記事を参考に代替え実装してみて下さい
次回は
Power BI ユーザ視点の Microsoft Fabric 解説と操作体験 ~ 訪日外客数データ取り込み+加工フローの自動パイプライン化
について記事公開しようと思います