1. はじめに
1-1 ご挨拶
初めまして、井村と申します。
Microsoft Fabricは、データの統合、エンジニアリング、分析、ビジネスインテリジェンスなどの機能を統合したSaaS型データ分析ツールです。
そしてMicrosoft Fabricは60日間のフリートライアル期間があります。
さらに、Microsoftが提供する無料のオンライン学習プラットフォームであるMicrosoft Learn(MSLearn)にはたくさんのMicrosoft Fabricに関する記事があります。
本記事はフリートライアル期間を利用してMSLearnの演習を行っていきます。
演習を通して気づいた点やTipsを、なるべく多くのスクリーンショットとともに備忘録として残します。
1-2 MSLearn
今回はMicrosoft Fabric でデータフロー Gen2 を使用してデータを取り込むを行います。
この演習の学習の目的は以下の通りです。
- Microsoft Fabric のデータフロー機能について説明する
- データを取り込んで変換するためのデータフロー ソリューションを作成する
- パイプラインにデータフローを含める
1-3 Get started with Microsoft Fabric
以下からMicrosoft Fabricのフリートライアルを開始できます。
Get started with Microsoft Fabric
2. データフロー Gen2について
データフロー Gen2についての概要になります。
データフロー Gen2は、クラウドベースのETLツールで、データの抽出、変換、読み込みを行います。
データフロー Gen2 の目的は、Power Query Online を使用して ETL タスクを実行するための簡単で再利用可能な方法を提供することです。
3. 演習スタート
演習 - Microsoft Fabric でデータフロー Gen2 を作成して使用する
上記URLから演習を開始できます。実際のMicrosoft Fabricを使うため、とても勉強になります。
3-1 ワークスペースの作成
1 . 【Azure】Microsoft Fabric レイクハウス内にあるファイルとテーブルにデータを取り込む。(3-1 レイクハウスを作成する)をご参照ください。
3-2 レイクハウスを作成する
1 . レイクハウスの作成は上記リンクをご参照ください。
3-3 データフロー (Gen2) を作成してデータを取り込む
ここでは 抽出、変換、読み込み” (ETL) プロセスをカプセル化するデータフローを定義することができます。
1 . ワークスペースのホーム ページで、[データを取得] - [データフロー Gen2] の順に選択します。
2 . 名前を [Dataflow 1]とし [作成] を押下します。
3 . 新しいデータフローの Power Query エディターが開きます。 [Text ファイルまたは CSV ファイルからインポート] を選択します。
4 . 接続設定を設定し、 [次へ] を押下します。
項目 | 値 |
---|---|
ファイルへのリンク | 〇 |
ファイル パスまたはURL | https://raw.githubusercontent.com/MicrosoftLearning/dp-data/main/orders.csv |
接続 | 新しい接続の作成 |
データ ゲートウェイ | (なし) |
認証の種類 | 匿名 |
プライバシーレベル | なし |
5 . [ファイル データのプレビュー]が正常に表示されたら [作成]を押下します。
6 . Power Query エディターには、データ ソースと、データを書式設定するためのクエリ ステップの初期セットが表示されます。ツール バーのリボンで、 [列を追加します] タブを選択して、 [カスタム列] を選択し、新しい列を作成します。
7 . [カスタム列]ダイアログボックスを設定し、 [OK]を押下します。
項目 | 値 |
---|---|
新しい列名 | MonthNo |
データ型 | 整数 |
カスタム列の式 | Date.Month([OrderDate]) |
8 . [OrderDate] 列のデータ型が [Date] に設定され、新しく作成された [MonthNo] 列のデータ型が [整数] に設定されていることを確認します。
3-4 データフローのデータ同期先を追加する
1 . ツール バーのリボンで、 [ホーム] タブを選択します。次に、 [データ同期先の追加] がグレーアウトされているので一旦削除します。 [既定のデータ変更先]ドロップダウン メニューで [削除] を選択します。
2 . [削除] を押下します。
3 . [データ同期先の追加] ドロップダウン メニューで [Lakehouse] を選択します。
4 . [次へ] を押下します。
5 . 自分が作成したワークスペース、レイクハウスを選択します。 [orders]という名前の新しいテーブルを作成します。 [次へ] を押下します。
6 . [自動設定を使用する] をOFFにし、[追加する(アベンドする)]を選択後、 [設定の保存] を押下します。
7 . メニュー バーで、 [表示] を開き、 [ダイアグラム ビュー] を選択します。 同期先である [Lakehouse] は、Power Query エディターのクエリにアイコンとして示されることを確認します。
8 . [保存と実行] を押下します。
3-5 パイプラインにデータフローを追加する
作成したデータフローをアクティビティとしてパイプラインに含めることができますので設定します。
1 . 左側ツールバーの [ワークスペース] から自分が作成した [ワークスペース] を選択します。
2 . [+ 新しい項目] - [データ パイプライン] の順に選択します。
3 . [Load data] という名前の新しいパイプラインを作成します。
4 . パイプライン エディターが開きます。[アクティビティ] - [データフロー]アクティビティを選択します。 [データフロー] が追加されます。
5 . 設定タブ内の[データフロー]ドロップダウンリストから作成したデータフローを選択します。選択後、 [保存] を押下します。
6 . [実行]を押下します。アクティビティの状態が [成功] になることを確認します。確認後、左側ペインのレイクハウスを選択します。
7 . [テーブル] の […] メニューから、 [最新の情報に更新] を選択します。次に、 [テーブル] を展開し、データフローによって作成された [orders] テーブルを確認します。
以上で演習は終了になります。
この演習ではMicrosoft Fabric でのデータフローの作成を学習しました。
3-6 リソースをクリーンアップする
1 . 【Azure】Microsoft Fabric レイクハウス内にあるファイルとテーブルにデータを取り込む。(3-7 リソースをクリーンアップする)をご参照ください。
以上でワークスペースが削除されます。お疲れ様でした!
本演習を通じて Microsoft Fabric の演習 が一覧化されていることを初めて知りましたので共有致します。