0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Redshift に入門してみた(AWS)

Posted at

はじめに

この前、次のプロジェクトで Redshift を使うかもしれないと教えてもらったので、ちょっと取り組んでみました。

この記事では Redshift クラスターを作る⇒S3 からサンプルデータをロード⇒クラスターを作り⇒クエリーを実行しました。
正直、ネットに Redshift の記事はたくさんあるので、最新の AWS の画面をキャプチャしておくみたいな記事です。

おおまかな作業の流れ

・ロールを作成
・サンプルデータのダウンロード
・S3にサンプルデータを配置
・Redshiftクラスターの作成
・クエリエディタを使ってみる
・クエリの実行

ロールを作成

今回は S3 からデータをロードするので AmazonS3ReadOnlyAccess ポリシーをアタッチしたロールを作成します。

  1. IAM の画面で左側のメニューより「ロール」を選択し、「ロールを作成」ボタンをクリック。
    red001_iam_role.png

  2. 信頼されたエンティティタイプに「AWSのサービス」を選択。
    ユースケースでは、サービスに「Redshift」、ユースケースに「Redshift - Customizable」を選択。
    red002_role.png

  3. 許可を追加画面にて「AmazonS3ReadOnlyAccess」を選択して「次へ」をクリック。
    red003_policy.png

  4. ロール名に適当な名称を入力して「ロールを作成」ボタンをクリック。
    (僕は実験段階だと zzz というプレフィックスをつけがち。)
    red004_role_confirm.png

サンプルデータのダウンロード

下記にサンプルデータが公開されています。
こちらから tickitdb.zip を取得しました。
https://docs.aws.amazon.com/ja_jp/redshift/latest/gsg/cm-dev-t-load-sample-data.html

tickitdb.zip には以下のファイルが入っています。
red050_sample_data.png

S3にサンプルデータを配置

  1. S3の画面へいき、なにはともあれ「バケットを作成」ボタンをクリック。
    red101_s3.png

  2. バケット の設定は名前を入力したくらいで、あとはデフォルトのままにしました。
    「バケットを作成」をクリック。
    red102_bucket_settings.png

  3. 作ったバケットを選択して「アップロード」をクリック。
    red103_bucket.png

  4. アップロードする画面に先ほど取得しておいたサンプルデータをドラッグ&ドロップします。
    red104_bucket_upload.png

※紙面の都合で、とりあえず allusers_pipe.txt だけアップロードしました。
red105_up_allusers.png

Redshiftクラスターの作成

  1. 最初にサブネットグループを作成しておきます。
    Redshiftの画面の左側のメニューで「設定 > サブネットグループ」を選択します。
    red201_redshift_subnet.png

  2. 「クラスターサブネットグループの作成」をクリック。
    名前を入力して、使用するサブネットを選択します。
    red202_redshift_subnet_settings.png

  3. 左側のメニューより「クラスター」を選択して、「クラスターを作成」ボタンをクリック。
    red203_redshift.png

  4. クラスターの設定は以下を変更しました。
    ・クラスター識別子
    ・ノード
    ・データベース設定 > 管理者パスワード(「パスワードの生成」を選択)
    ・関連付けられた IAM ロール(先ほど作成したロールにチェックを入れた)
    ・追加設定は特に変更していないですが、必要に応じて見直してください。

設定したら「クラスターを作成」をクリック。
実際にやったときはクリックしてから作成完了まで体感 1 〜 2 分くらいだったと思います。
red204_cluster_settings.png

クエリエディタを使ってみる

  1. 左側のメニューより「クエリエディタ v2」を選択します。
    red205_click_queryeditor.png

  2. クエリエディタが開いたら、左の方にクラスター(の名前)が表示されているのでクリックします。
    red301_query_editor.png

  3. ダイアログが開くので、「Database user name and password」を選択。画面下の方で、先ほど設定したユーザー名やパスワードを入力し「Create connection」をクリック。
    red302_connect.png

  4. 接続できたら、テーブルを作成します。
    テーブル定義は以下のページからいただきました。
    https://docs.aws.amazon.com/ja_jp/redshift/latest/gsg/new-user-serverless.html
    下記を入力して「Run」をクリックします。

create table users(
userid integer not null distkey sortkey,
username char(8),
firstname varchar(30),
lastname varchar(30),
city varchar(30),
state char(2),
email varchar(100),
phone char(14),
likesports boolean,
liketheatre boolean,
likeconcerts boolean,
likejazz boolean,
likeclassical boolean,
likeopera boolean,
likerock boolean,
likevegas boolean,
likebroadway boolean,
likemusicals boolean);  

red303_create_table.png

create table が成功すると、下記のように public の下に users ができていると思います。
red304_created.png

「Load data」をクリックします。
ダイアログで「Load from S3 bucket」を選択して、先ほど S3 にアップロードしたファイルの URI を指定します。
あと「File options」をクリックして、Delimiter も指定しました。
red305_load_data_001.png

次にロード先のテーブルを指定し「Load data」をクリック。
red306_load_data_002.png

※ロード結果
red307_load_result.png

お待ちかね、ここまできたらクエリが実行できます!

クエリの実行

クエリを入力して Run します。

/* 例 */
select * from users where firstname = 'Rafael';

red308_run_query.png

取り組んでみて

これで Redshift に入門できたかな。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?