はじめに
Snowflakeの手軽に試せるチュートリアルを見つけたのでやってみました。
Snowflake の 30 日間無料トライアルアカウントを作成して、クレジットカードの登録なしで試せました。
チュートリアルは英語ですが、ブラウザの翻訳機能で日本語化してもそれほど違和感なく読めました。
若干おかしな翻訳部分もありますが、読み替えできる程度でした。
わかりやすく書かれていて内容はとてもよいのですが、全体像がよくわかっていないまま上から順に指示通りに作業を進めていると、黙々と作業をこなしてしまい、今、自分が何のためにどんな作業をやっているのか迷子になってしまいがちです。
最初に全体像が把握できていればよかったなと思ったので、整理しました。
- チュートリアルの目次
- ラボのシナリオ
- 作成するオブジェクトの全体像
チュートリアルの目次
- 概要
- ラボ環境を準備する
- Snowflake のユーザー インターフェイスとラボストーリー
- データのロードの準備
- データのロード
- クエリ、結果キャッシュ、およびクローンの操作
- 半構造化データ、ビュー、結合の操作
- タイムトラベルの使用
- 役割、アカウント管理者、およびアカウントの使用状況の操作
- 安全なデータ共有とデータ マーケットプレイス
- Snowflake 環境のリセット
- 結論と次のステップ
実施時間は、全体で約90分程度です。
ラボのシナリオ
Citi Bike は、米国ニューヨーク市にある都市全体の自転車共有システムです。
Citi Bike の分析チームは、蓄積したデータに対して分析を行い、自転車利用者をよりよく理解して、最適なサービスを提供したいと考えています。
ラボでは、大きくは以下の3つの観点で作業を進めます。
・データのロード
まず、自転車利用者のトランザクションの構造化データ(csv)を Snowflake に読み込みます。
次に、半構造化データ(JSON)である 気象データを使用して、自転車の乗車回数と天気の間に相関関係があるかどうかを判断します。
・ロールの作成や特定のアクセス許可の付与など
ジュニア DB管理者が Citi Bike に入社したので、ジュニア DB管理者用の SYSADMIN(システム定義のデフォルトロール) よりも権限が少ない新しいロールを作成します。
・データ共有
Citi Bike のアカウントと同じ地域に独自の Snowflake アカウントも持っている信頼できるパートナーがいるので、そのパートナーにデータ共有を行います。
作成するオブジェクトの全体像
ラボの作業では、データベース、テーブル、仮想ウェアハウス、外部ステージ、ロールなど様々なオブジェクトを作成していきます。デフォルトで用意されているものを使用する場合もあります。
今、自分がどこの何を作成しているのか迷子にならないように全体像を図示してみました。
全量を網羅できていないかもしれませんが、主要なオブジェクトは把握できると思います。
おわりに
Snowflakeの基本的な機能を満遍なく触れる内容になっているので、これからSnowflakeを勉強しようとする人に向いていると思いました。
これから試される方が、この記事を参考に迷子にならずにチュートリアルを進められると嬉しいです。
せっかくなのでもう少し他の機能も理解できるように、他のチュートリアルも試していきたいと思います。