1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【データ分析基盤】Azure Data Factory(ADF)について概要を整理してみた

Posted at

AzureDataFactory(ADF)とは何か

 でーた分析基盤のプロジェクトにてAzureのADFを使用したので整理していく。AzureのADFは下記の公式マニュアルで説明されている。

Azure Data Factory は、このようなデータ シナリオを解決するプラットフォームです。 クラウドベースの ETL およびデータ統合サービスを通じて、データの移動と変換を大規模に制御するデータ ドリブンのワークフローを作成できます。 Azure Data Factory を使えば、各種のデータ ストアからデータを取り込むことができるデータ主導型のワークフロー (パイプライン) を作成し、スケジューリングできます。 コンピューティング サービス (Azure HDInsight Hadoop、Azure Databricks、Azure SQL Database など) やデータ フローを使用してデータを変換する複雑な ETL プロセスを視覚的に作成できます。

上記のように記載されており、データを統合管理するクラウドのプラットフォームである。
プロジェクトでは、AzureのBlobに配置されたファイルを整形して、SnowFlakeに登録するETLジョブをADFを使用して構築ていました。

ADFの実行方法について

ADFの実行方法は下記のサイトでも説明されているが「デバック」ボタンを押すと
パイプラインが実行されて「出力」タブに「パイプライン」を構成する「アクティビティ」の状態が表示される。

「アクティビティ」には、実行時のIDが振られ
そのIDをAzureバッチのログなどで確認すると、stderrやstdoutなどを確認することもできる。

ADFのアクティビティの設定について

 パイプの下には、カスタムプロパティを定義できる部分があり、それぞれの「アクティビティ」で

  • どのようなコマンドを実行するか?
  • どのリソースをインプットにするか?

などを定義することができる。

image.png

Azure Batchというタブもあり、このタブでAzureBatchのリンクサービスを指定する。このBatchのサービスで定義されているプール上でパイプラインの処理が動作するイメージである。※プールにはVM(仮想インスタンス)の数やスペックなどが定義されている。

image.png

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?