この記事の位置づけ
- この記事は、[IBM Cloud Paks Advent Calendar 2021 Advent Calendar 2021] (https://qiita.com/advent-calendar/2021/cloudpaks) の12/6分として記載します。
- 投稿したのは12/20ですが、忙しくて今の今まで書く時間がなかったのです。
- 空きがあったので後からですけどエントリーしました。
#やりたいこと
- Snowflakeに任意のデータをロードして、そのデータをCp4DaaSのデータカタログに登録してみる、という内容です。
ロード用データの準備
- こちらで生成してダウンロードしたダミーデータを、(後で結合するので、)このような感じで2分割します。
- 今回、Snowflakeにはdummmy-persons.csvをロードしてみます。
- (dumm-mobiles.csvは別なデータベースにロードします)
Snowflake にデータをロードする。
- Snowflakeのこちらのサイトを参照しながら、データをロードします。
データベースの作成
##テーブルの作成
-
今回のcsvデータの列名を元に、以下を列として追加します。完了したらFINISHをクリックします。
-
テーブル名をクリックして内容を確認します。
-
対応するWarehouseとして、デフォルトで選択される「COMPUTE_WH」をが選択されていることを確認し、「Next」をクリックします。
-
多分、1行目に入ってる列名の「連番」というのがINTEGER型にそぐわなかったのでしょう。ここを削って再度ロードしてみましょう。
ロードされたデータの確認
デモデータ確認用の新しいワークシートの作成
-
ワークシートに新規名称を付けます(ここではSNOW_DEMO)。
-
画面左側からデータベース「SNOW_DEMO」をクリックします。
-
スキーマ「Public」を選択し、「Tables」をクリックして、先程データをロードした「DUMMYPEOPLE」テーブルをクリックします。
-
画面左下の「Preview Data」をクリックします。
-
画面下部にデータのプレビューが表示されます。
#CP4DaaSのWKC(データカタログ)にSnowflakeのデータを登録する。
SNOW_DEMO への接続
-
こちらの手順を参考にして、Snowflakeの「SNOW_DEMO」への接続定義を作成しましょう。
-
上記では「SNOW_FLAKE_SAMPLE_DATA」を対象データベースとしていましたが、こちらでは「SNOW_DEMO」を対象データベースとして接続定義を作成しました。
カタログに追加
-
こちらの手順を参考にして、Snowflakeの「SNOW_DEMO」への接続定義とデータ資産「DUMMYPEOPLE」をカタログに登録しましょう。