More than 1 year has passed since last update.

【データ活用/Snowflake】Snowflakeでデータ活用をする際のデータの流れを理解する

Posted at 2023-03-15

今回の課題

Snowflakeを通してデータ活用をする際の、データの流れのパターンを理解する。
下記の動画で紹介されていたアーキテクチャを参考に調査して勉強をしてみた。

※紹介されていたアーキテクチャ

上記のアーキテクチャでは、大きく分けて3パターンのデータの流れが紹介されていた。

S3から、Snowpipeなどを使用してSnowflakeにデータをロードしてテーブルを生成し、
そちらをBIツールやAmazon SageMakerなどに連携する基本的な使い方。

外部テーブルとは、読み取り専用でS3などの外部のストレージのデータに、Snowflakeからアクセスすることができる機能。

Snowflake内にテーブルを生成しなくても、Snowflakeの外部テーブル機能でS3などのストレージにあるCSVやParquetファイルを読み込み、
それらをBIツールやAmazon SageMaketに連携することで、1)と同様にデータを活用することができる。

また、S3のデータをSnowflakeに外部テーブル機能で読み込み、
それらを加工して新たなテーブルを生成して、データ活用したり、S3にデータをアンロードするといったことも可能。

Snowflakeを通さず、AWSのサービスでデータ活用をすることも可能。

SnowflakeとAWSをデータ基盤として使用する際に、
1)のようにデータレイクからSnowflakeにデータをロードして生成したテーブルを活用するということ以外にも、データ活用時に行える方法があることを学べた。