値が存在しないことを確認することで行の重複を防ぐ

一般的にDWHシステムでは、テーブルから別のテーブルへデータの移動を行うことが多いと思います。

例えば、以下のような2つのテーブルがあるとします。

stg_table(id,desc_col)
prd_table(id,desc_col)

データがprd_tableにまだ存在しない行のみ、stg_tableからprd_tableにデータ移動を行いたいと思います。
これはよくあるシナリオだと思いますが、ここでよく利用するのはNOT EXISTを利用することです。

insert into prd_table
select
    s.id,s.desc_col
from
    stg_table s
where not exists(
    select 1
    from prd_table p
    where p.id = s.id
);

また、idとdesc_colを合わせて一意にしたい場合にはWHERE句を少し拡張します。

insert into prd_table
select
    s.id,s.desc_col
from
    stg_table s
where not exists(
    select 1
    from prd_table p
    where
            p.id = s.id
        and p.desc_col = s.desc_col
);

クラスター化列ストアインデックスで細かくデータをインサートする場合は断片化などでパーフォーマンスが低下する可能性があるので、CTASを使って再作成したり、クラスター化列ストアインデックスの代わりにHEAPテーブルを使うなどの注意が必要な場合があります。

Synapse SQLプールのクラスター化列ストアインデックス

主キーの無いSynapse Analytics 専用SQLプールでデータの重複を防ぐ方法

値が存在しないことを確認することで行の重複を防ぐ