この記事の位置づけ
- この記事は、IBM Cloud Paks Advent Calendar 2021 Advent Calendar 2021 の12/6分として記載します。
- 投稿したのは12/20ですが、忙しくて今の今まで書く時間がなかったのです。
- 空きがあったので後からですけどエントリーしました。
やりたいこと
- Snowflakeに任意のデータをロードして、そのデータをCp4DaaSのデータカタログに登録してみる、という内容です。
ロード用データの準備
-
こちらで生成してダウンロードしたダミーデータを、(後で結合するので、)このような感じで2分割します。
今回、Snowflakeにはdummmy-persons.csvをロードしてみます。
(dumm-mobiles.csvは別なデータベースにロードします)
Snowflake にデータをロードする。
- Snowflakeのこちらのサイトを参照しながら、データをロードします。
データベースの作成
テーブルの作成
-
今回のcsvデータの列名を元に、以下を列として追加します。完了したらFINISHをクリックします。
テーブル名をクリックして内容を確認します。
対応するWarehouseとして、デフォルトで選択される「COMPUTE_WH」をが選択されていることを確認し、「Next」をクリックします。
多分、1行目に入ってる列名の「連番」というのがINTEGER型にそぐわなかったのでしょう。ここを削って再度ロードしてみましょう。
ロードされたデータの確認
デモデータ確認用の新しいワークシートの作成
ワークシートに新規名称を付けます(ここではSNOW_DEMO)。
画面左側からデータベース「SNOW_DEMO」をクリックします。
スキーマ「Public」を選択し、「Tables」をクリックして、先程データをロードした「DUMMYPEOPLE」テーブルをクリックします。
画面左下の「Preview Data」をクリックします。
画面下部にデータのプレビューが表示されます。
CP4DaaSのWKC(データカタログ)にSnowflakeのデータを登録する。
SNOW_DEMO への接続
こちらの手順を参考にして、Snowflakeの「SNOW_DEMO」への接続定義を作成しましょう。
上記では「SNOW_FLAKE_SAMPLE_DATA」を対象データベースとしていましたが、こちらでは「SNOW_DEMO」を対象データベースとして接続定義を作成しました。
カタログに追加
こちらの手順を参考にして、Snowflakeの「SNOW_DEMO」への接続定義とデータ資産「DUMMYPEOPLE」をカタログに登録しましょう。