背景
データ分析を AWS で自動化する方法を勉強するため、AWS データレイク ハンズオンで各サービスを実際に使ってみることにした。
ハンズオンを進める
Lab5: クラウド DWH を使用したデータ分析
主に使用するサービス:
- Kinesis Data Firehose
- S3
- Athena
- Redshift
- Redshift Spectrum
- QuickSight
Section1: Redshift の環境構築
Step1: CloudFormationでネットワークの設定
Step2: Redshift の構築
Redshift を特定の VPC で使用したいが、無料トライアルでは VPC を選択できないようだ (デフォルト VPC で作成される)。
VPC の変更も検討したが、スナップショットから復元する際、無料トライアルを選択できないため、手詰まり状態。
一先ず、デフォルト VPC に Redshift を置いた状態で、ハンズオンを進めてみる。
Section2, 3 は実施済みのため、スキップする。
Section4: Redshift への接続
Step1: Redshift への接続
Step2: Redshift にデータロード
Step3: Redshift Spectrum の使用
Step4: QuickSight の設定
QuickSight で新規 Redshift データソースを作成する際、以下のエラーが出た。
Amazon QuickSight がプライベートネットワーク内にあるため、データソースにアクセスできません。この問題を修正するには、ホストがパブリックにアクセスできるようにします。
この原因はおそらく、 QuickSight がスタンダード版であるため、 VPC へ接続できないためだと思われる。
とりあえず、QuickSight の設定は飛ばす。
Section5: 振り返り
おおよそ設定できたが、
- Redshift: デフォルト VPC 上に置かれている (無料トライアルのため、独自 VPC には配置できず)
- QuickSight: Redshift を可視化できず (スタンダード版のため、VPC 接続できず)
上記がハンズオン通りにはいかなかった。
(ハンズオンの範囲内であれば、無料トライアルできるような環境を作って欲しい・・・。QuickLabs とかで実装してくれないかな・・・。)
また、全体の作成の流れは把握できたが、
- DB の定義
- スキーマの定義
- 外部テーブルの作成方法
- VPC やサブネットの配置
- ...
などなど、細かいところはまだふわっとしてる・・・。
ハンズオンが終わったら、「 AWS ではじめるデータレイク」で細かいところも確認しよう。
今後の学習方針あれこれ
プライベートで AWS 使うの?問題
非リアルタイム・小規模なデータ分析だったら、表計算ソフトで十分かもしれない。
データ分析で AWS を使うタイミングは・・・
リアルタイム・大規模 (GB, TB レベル) を求められる案件でないと、バリューを発揮できない気がする。
ガチガチに要件定義すれば使えないこともないが、普段使いにはかなり大きめなサービスだと思う。