More than 3 years have passed since last update.

【データ基盤構築/Snowflake】S3（データレイク）からデータをロードするためのSnowflakeの便利機能

Last updated at 2023-03-15Posted at 2023-03-15

今回の課題

データレイクとしてAWSのS3を使用している場合に、
Snowflakeへデータをロードするための機能を調査する。

下記の記事を読んで、不明だった機能について理解してみた。

スケジュールや前処理の終了をトリガーにして、SQLを自動実行するように設定できる機能。
ロード処理をSnowflakeの「TASK」機能で定義しておけば、自動化できる。

Snowflakeは、S3を外部ステージとして使用することができ、クエリでのデータをロードすることも可能となっている。
TASK機能と組み合わせることで、S3のデータファイルを使用して定期的にSnowflakeでテーブル生成することが可能になる。

S3からSnowflakeにデータを手動でロードしなくても、
S3でファイルが利用できるようになったことを検知して、自動で継続的にロードできるようにする仕組み。
下記の流れで処理を自動化できる。

■Snowpipe実装の流れ
1.S3にデータが格納されたタイミングでAWS SQSを使ってSnowpipeに通知を送る。
2.通知をされたSnowpipeがSnowflakeの中にデータをロードする。

下記の記事で、Snowpipeの実装方法が紹介されていた。

S3からSnowflakeにデータをロードする流れをイメージできた。