概要
Azure Data Factory のメタデータ駆動のコピータスクにて差分連携時のファイル名を適切に実施する方法を共有します。デフォルトで作成すると下記のように.parquet
などの拡張子の後にウォーターマーク列の値が設定される不思議なファイル名となってしまいます。本記事の手順を実施することで、想定通りに末尾に拡張子を設定できます。
dboadf_metadata_01.parquet-2024-04-03T00:00:00.000Z-2024-06-01T00:00:00
実施手順
1. メタデータ駆動コピータスクを作成時にファイル名のサフィックス
を空にする
2. DeltaLoadOneObject
アクティビティにおけるシンクのcw_fileName
の末尾にファイル拡張子(例L:.snappy.parquet
)を追記
@{json(item().SinkObjectSettings).fileName}-@{json(item().DataLoadingBehaviorSettings).watermarkColumnStartValue}-@{activity('GetMaxWatermarkValue').output.firstRow.CurrentMaxWaterMarkColumnValue}.snappy.parquet
動作確認
1. パイプラインを実行して正常終了することを確認
2. ファイル名が想定となっているを確認
dboadf_metadata_01-2024-06-01T00:00:00-2024-06-01T00:00:00.snappy.parquet