今回はデータフロー(Gen2)を使ってパイプラインを作成する練習です。
レイクハウスの使い方は前回の記事に書いております。
アカウントの準備、ワークスペースの作成方法については、下記内容を参照ください。
データを取り込むためのデータフロー(Gen2)を作成する
-
ワークスペースのホームページで、 [New Dataflow Gen2] を選択します。数秒後、次に示すように、新しいデータフローの Power Query エディターが開きます。
-
[テキスト/CSV ファイルからインポート] を選択し、次の設定で新しいデータ ソースを作成します。
ファイルパスはhttps://raw.githubusercontent.com/MicrosoftLearning/dp-data/main/orders.csv
を入力
-
作成ボタンを押してデータソースを作成します。
Power BI Desktopを使用したことがある方は見たことある画面レイアウトだと思います。
-
[新しい列名] を
MonthNo
と設定し、[データ型] を [整数] に設定して、カスタム列の式Date.Month([OrderDate])
を追加します。
-
[OK] を選択して列を作成し、カスタム列を追加する手順がクエリにどのように追加されるかを確認します。結果の列がデータ ウィンドウに表示されます。
Dataflow のデータ送信先を追加する
- ツールバーのリボンで、[ホーム]タブを選択します。次に、 [データ送信先の追加] ドロップダウン メニューで、 [Lakehouse] を選択します。
- [データの送信先に接続] ダイアログ ボックスで、接続を編集し、Power BI 組織アカウントを使用してサインインし、データフローがレイクハウスへのアクセスに使用する ID を設定します。
- [次へ] を選択し、使用可能なワークスペースの一覧でワークスペースを見つけて、この演習の最初に作成したレイクハウスを選択します。次に、orders という名前の新しいテーブルを指定します。
- [宛先設定の選択] ページで、[追加] を選択し、 [設定の保存] を選択します。
- メニュー バーで [表示] を開き、[ダイアグラム ビュー] を選択するとアイコンでフロー図が表示されます。
- 最後に公開ボタンを押してデータフローがワークスペースに作成されるのを待ちます。
パイプラインにデータフローを追加する
- ワークスペースに戻って、[新規]→[データ パイプライン] の順に選択し、メッセージが表示されたらパイプライン名を付けて、データの読み込み という名前の新しいパイプラインを作成します。
- [パイプライン アクティビティの追加] を選択し、パイプラインに Dataflow アクティビティを追加します。
- 新しい Dataflow1 アクティビティを選択した状態で、[設定] タブの [データフロー] ドロップダウン リストで [データフロー 1] (以前に作成したデータ フロー) を選択します
- [ホーム] タブで、(保存) アイコンを使用して🖫パイプラインを保存します。
- ▷ 実行 ボタンを使用してパイプラインを実行し、完了するのを待ちます。数分かかる場合があります。
エラーになった場合は、Dataflowの設定ミスや移送先のテーブルとアンマッチな可能性がありますので見直しましょう。(私も沼りました)
- 最後に取り込んだデータをレイクハウスで確認します。
[テーブル] のメニューで [更新] を選択します。次に、 [テーブル] を展開し、データフローによって作成された orders テーブルを選択すると、元データと同じデータ項目でテーブルに取り込まれていることが確認できます。
まとめ
データフローGen2を使ってデータを取り込む方法は、Azure DataFactoryと同等の機能ですので、すでにDataFactoryの利用方法をマスターされている方は違和感なく操作できそうです。