はじめに
Azure Data Factory(以下、ADF)では多様なデータソースをサポートしています。
今回はWeb上のテーブルからデータを取得する方法についてまとめます。
※webページへの負担をかけすぎないようにご注意くださいませ。
前提
- Self-Hosted IRをインストールしたマシンが必要です。
- Self-Hosted IRについてはこちら
- 一部、取得先の確認用にExcel or Power BIを利用します。
手順
取得先は下記の国税庁のサイト内の企業規模別の平均給与リンクにします。
http://www.nta.go.jp/publication/statistics/kokuzeicho/minkan1997/menu/04.htm
手順の流れは下記です。
- 取得先へのリンクドサービスの作成
- インデックスの確認
- データセットの作成
取得先へのリンクドサービスの作成
newからリンクドサービスを作成します。
Self-Hosted IR経由で取得するように設定し、URLを指定します。
※Test Connection しておきましょう。
インデックスの確認
Power BI かExcelから対象のテーブルのインデックスを確認します。
Excelであれば下記
データセットの作成
LinkedServiceは先ほど作ったものを選択し、インデックスは確認した「0」を入れます。
プレビュー結果はこのように出ます。クレンジングが必要そうですね。
あとはCopyアクティビティなどで、Storageに吐くもよし、Mapping Data Flowで変換してDBに書き込むもよしです。
以上