2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

Azure Data Factory - Data Flowで重複行を取り除く (最初の行だけ選択する)方法メモ

Last updated at Posted at 2021-09-10

はじめに

Azure Synapse Pipeline (Azure Data Factory)のDataFlowで、ある列に重複した値があった場合に、最初の行だけを選択するフローを作ります。
自分用のシンプルなメモです。

方法

  1. Aggregate (集約)アクティビティを置きます。

  2. 「グループ化」タブ「列」の設定項目に重複を除きたい対象の列を指定します。
    image.png
    列名の部分は既にある列名と被らないものを指定します。
    ※今回はデータを入力していないのでエラー表示が出ておりますが、ソースデータセットに列が入っていればエラー表示は消えます。

  3. 「集約」タブ→「追加」で、「列パターンの追加」を選択します。

  4. 「式ビルダーを開く」を選択し、下記内容を書きます。

image.png
image.png

全ての列を対象にし、列名は元をそのまま出力し、重複があった場合はfist($$)によって最初の行が出力される、というイメージです。
'$$' は、一致した列の既存の列値を表します。

おわりに

これで対象列において重複があった場合に、最初の行のみ残すフローが作成できました!
元々はドキュメントのスニペットを参考にしております。
スニペットは全列を対象に重複があった場合に最初の行のみ残す、という形になっていたので、それを特定の行を選択する形でトライしました。

参考

マッピング データ フロー スクリプト - Azure Data Factory | Microsoft Doc
first()

2
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?