Fivetranで(RDS)PostgreSQLから(AWS)Databricksへデータを同期してみた - ③自動同期（増分同期）編

fivetran

Posted at 2023-05-31

Fivetranは、様々なデータソース（各種SaaSアプリやDBなど）から、クラウド型DWHを中心としたデータ分析基盤へ、データ同期を自動化させることができるツールです。

最短5分のセットアップでデータパイプラインを構築することができ、それ以降のデータ同期を自動で実行してくれるとのこと。

今回は、このFivetranを使用して(RDS)PostgreSQLから(AWS)Databricksへのパイプラインを構築し、データ同期を行ってみました。

全体の流れ

同期先((AWS)Databricks)を登録します
データソース((RDS)PostgreSQL)のコネクターを作成します
データの自動同期（増分同期）を確認します　※この記事です

データの自動同期を確認します

ソース側のデータベースに変更を加えて、自動同期（増分同期）される様子を見ていきたいと思います。

検証をスムーズにするため同期間隔をデフォルトの6時間から15分に変更しました。

1. データ追加

追加されたデータは自動同期にて反映されます。

　　↓　自動同期（増分同期）

　　↓　完了

　　↓　結果

データ追加が反映されていることを確認しました。
また、追加分以外のレコードで「_fivetran_synced」カラムが変わっていないことから、増分同期はちゃんと必要な分のみ同期してくれることを確認。
もしこれが毎回全レコード作り直しとかになっていたら、支払料金が変わってきてしまいます。

2. データ更新

データ更新も自動同期で反映されますが、主キー無しテーブルについては以下の問題が発生しました。

更新できないエラー

レプリカアイデンティティを設定しないとデータの更新ができない
主キーありテーブルと異なる形で反映される

↓ まず、主キー無しテーブルに更新をかけようとするとエラーになってしまいました。

↓ 主キーありテーブルは問題なし。

■ 更新できないエラーについて

論理レプリケーション設定による影響でした。
https://www.postgresql.jp/document/14/html/logical-replication-publication.html

パブリケーションに指定したテーブルは、「レプリカアイデンティティ」の設定をしなければ、その後UPDATE、DELETEの操作ができなくなってしまう
主キーがあればそれがデフォルトでレプリカアイデンティティになるが、
主キーが無い場合はレプリカアイデンティティが設定されないため、追加でレプリカアイデンティティを設定しないとエラーになってしまう
追加で設定する設定する際には、下記のいずれかを選択する
- ユニークキー：一意であり、かつ「NOT NULL」が指定されたカラムでなければならない（それがあればそもそも主キーになっていそう…）
- full：行全体をキーとするので、主キー/ユニークキーが無いテーブルでも使用できるが、上記ドキュメントによれば『非常に非効率なので、他の解決方法がない場合のみの代替手段』とのこと

今回は検証なので full の方で追加の設定をすることにしますが、非常に非効率だそうなので、もし現実に主キー無しのテーブルを同期する場合があれば、注意が必要そうです。