前回はLakehouseの使いかたについて勉強しました。
今回はパイプラインでデータを取り込む演習です。
まずは前回と同じようにワークスペースを作成し、続いてレイクハウスを作成します。
前回使ったワークスペースを使いまわしても問題ありません。
ワークスペースとレイクハウスの作成方法は前回の記事をご参照ください。
パイプラインを作成する
-
データのコピー ウィザードの [データ ソースの選択] ページの [データ ソース] セクションで、[汎用プロトコル] タブを選択し、今回は[HTTP] を選択します。すべてのカテゴリを選択すると、データ接続先は30個以上あることがわかります。
-
コピーの概要ページで詳細確認し、 [保存 + 実行] を選択します。
そうするとデータのコピー アクティビティを含む新しいパイプラインが作成されます。
パイプラインの実行が開始されると、パイプライン デザイナーの下の [出力] ペインでその状態を監視できます。↻(更新)アイコンを使用してステータスを更新し、成功するまで待ちます。
ノートブックを作成する
-
レイクハウスの [ホーム] ページの [ノートブックを開く] メニューで、 [新しいノートブック] を選択します。
数秒後、1 つのセルを含む新しいノートブックが開きます。ノートブックは、コードまたはマークダウン (書式設定されたテキスト) を含めることができる 1 つ以上のセルで構成されます。
簡単なコードを含むノートブック内の既存のセルを選択し、既定のコードを次の変数宣言に置き換えます。
パラメーター セルで、 [+ コード] ボタンを使用して新しいコード セルを追加します。
ノートブックにコードを書き終えたらツールバーの ▷ [すべて実行] ボタンを使用して、ノートブックに含まれるすべてのセルを実行します。
-
[エクスプローラー] ウィンドウで、ビューを更新します。次に、 [テーブル] を展開し、sales テーブルを選択して、そこに含まれるデータのプレビューを表示します。
パイプラインによってデータが取り込まれていること、指定されたデータ型に変換されていることなどが確認できます。
パイプラインの変更
-
左側のハブ メニュー バーで、前に作成した [Ingest Sales Data] パイプラインに戻って、右上の [...] メニューから「データを削除」アクティビティを「データのコピー」アクティビティの左側に配置し、その「完了時」出力を「データのコピー」アクティビティに接続します。
-
次にパイプライン デザイナーの アクティビティ タブで、ノートブック を選択して、ノートブック アクティビティをパイプラインに追加します。
「Copy data」アクティビティを選択し、その「On Completion」出力を「Notebook」アクティビティに接続します。
ノートブック アクティビティを選択し、デザイン キャンバスの下のウィンドウで、次のプロパティを設定します。
-
最後にパイプラインを保存し、▷ [実行] ボタンを使用してパイプラインを実行し、すべてのアクティビティが完了するのを待ちます。
すべてのパイプラインが成功したら無事に完了です!
まとめ
今回初めてFabric上でパイプラインを作成してみましたが、Azure DataFactoryの使い方をおさえていれば違和感なく使用することができます。