LoginSignup
1
0

More than 1 year has passed since last update.

AWS データレイク ハンズオン - Lab5 -

Last updated at Posted at 2022-01-03

背景

データ分析を AWS で自動化する方法を勉強するため、AWS データレイク ハンズオンで各サービスを実際に使ってみることにした。

ハンズオンを進める

Lab5: クラウド DWH を使用したデータ分析

主に使用するサービス:

  • Kinesis Data Firehose
  • S3
  • Athena
  • Redshift
  • Redshift Spectrum
  • QuickSight

Section1: Redshift の環境構築

Step1: CloudFormationでネットワークの設定

Step2: Redshift の構築

Redshift を特定の VPC で使用したいが、無料トライアルでは VPC を選択できないようだ (デフォルト VPC で作成される)。

VPC の変更も検討したが、スナップショットから復元する際、無料トライアルを選択できないため、手詰まり状態。

一先ず、デフォルト VPC に Redshift を置いた状態で、ハンズオンを進めてみる。

Section2, 3 は実施済みのため、スキップする。

Section4: Redshift への接続

Step1: Redshift への接続

Step2: Redshift にデータロード

Step3: Redshift Spectrum の使用

Step4: QuickSight の設定

QuickSight で新規 Redshift データソースを作成する際、以下のエラーが出た。

Amazon QuickSight がプライベートネットワーク内にあるため、データソースにアクセスできません。この問題を修正するには、ホストがパブリックにアクセスできるようにします。

この原因はおそらく、 QuickSight がスタンダード版であるため、 VPC へ接続できないためだと思われる。

とりあえず、QuickSight の設定は飛ばす。

Section5: 振り返り

おおよそ設定できたが、

  • Redshift: デフォルト VPC 上に置かれている (無料トライアルのため、独自 VPC には配置できず)
  • QuickSight: Redshift を可視化できず (スタンダード版のため、VPC 接続できず)

上記がハンズオン通りにはいかなかった。
(ハンズオンの範囲内であれば、無料トライアルできるような環境を作って欲しい・・・。QuickLabs とかで実装してくれないかな・・・。)

また、全体の作成の流れは把握できたが、

  • DB の定義
  • スキーマの定義
  • 外部テーブルの作成方法
  • VPC やサブネットの配置
  • ...

などなど、細かいところはまだふわっとしてる・・・。
ハンズオンが終わったら、「 AWS ではじめるデータレイク」で細かいところも確認しよう。

今後の学習方針あれこれ

プライベートで AWS 使うの?問題

非リアルタイム・小規模なデータ分析だったら、表計算ソフトで十分かもしれない。

データ分析で AWS を使うタイミングは・・・

リアルタイム・大規模 (GB, TB レベル) を求められる案件でないと、バリューを発揮できない気がする。

ガチガチに要件定義すれば使えないこともないが、普段使いにはかなり大きめなサービスだと思う。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0