はじめに
本記事は、DAS-C01を受けるにあたっての勉強内容をメモするための記事です。
簡単なプロフィール
現在、都内の金融系IT会社に勤める28歳男性です。
業務内でAWSを扱っている関係で今年度中にAWS全資格取得を目指して勉強をしています。
今まで取得したAWS資格一覧
DBS-C01
SCS-C01
DOP-C01
DVA-C01
SOA-C02
SAP-C01
SAA-C02
勉強内容
メモ
データ分析基礎知識
-
データカタログとメタデータの違い
- データカタログ:データ辞書、構造化データから非構造データまでデータ形式は多岐にわたる
- メタデータ:RDS等の構造化が約束されたデータ群、データカタログを効率的に使用するために使用するデータ
※ご参考
-
列指向データと行指向データについて
- 列指向データ:大量の行データに対して少数の列を抽出するような集計が得意
- 行指向データ:少数の行に対して大量の列を抽出するような集計が得意
※ご参考
-
MapReduceとは
- 大量データを処理するための分散コンピューティング用プログラミングモデル
-
Hadoop関連用語整理
- 参考はこちら
AWSサービスについて
-
AWS Glueについて
- データカタログ作成に特化したサービス
- データカタログ作成元データについて多岐にわたるサービス(S3, Redshift, RDS etc.)を選択できることが強み
- 処理済データを追跡する、ブックマーク機能あり
- バッチ処理に向いており、リアルタイム分析には不向き
-
Amazon Redshiftについて
- 分散スタイル
- KEY
- 一行ごとにと特定の列の値に従って分散される
- All
- 変更が少ないデータの場合に選択
- EVEN
- AUTO
- KEY
- 暗号化
- 既存のデータベースを暗号化するように変更は不可
- 暗号化したDBに既存DBのデータを移行する必要がある
- KMSもしくはHSMによる暗号化が可能
- 既存のデータベースを暗号化するように変更は不可
- バックグラウンドで自動的にバキューム処理が実行されている
- ユーザー側の処理が連続して実行されているとバキューム処理が実行されず処理落ちの原因となる
- 分散スタイル
-
Amazon Athenaについて
- クロスリージョンアクセス非対応
- S3 Glacierアクセス不可
- 複雑クエリ実行に不向き
- 実行タスクはワークグループで定義
- ワークグループごとにデータ使用量の閾値を設定可能
-
Elastic Searchについて
- 文字列検索が可能
-
kinesis Data Streams について
- 過去にストリームしたデータの順番に沿って再生が可能
- データボトルネック発生時の観点
- シャードスが足りているか
- パーティションキー(データをどのシャードに割り当てるかを決めるルール)の振り方は適当か
- 最大データは1MBまで
- それ以上の場合はManeged Streaming for Kafkaを検討
-
kinesis Data Analytics
- 取り込んだデータに応じて追加のカラムを追加可能
- 追加カラムのデータライブラリをS3に格納
- 取り込んだデータに応じて追加のカラムを追加可能
-
Lake Formation
- Data Lakeへのアクセス制御管理を行うためのサービス
- クロスアカウントのリソースを集約可能
-
Amazon Quicksight
- データ単位でのアクセス制御
- RLS(Row-Level Security)の設置(Enterprise Editionのみ )
- データ単位でのアクセス制御
-
Amazon EMR
- パフォーマンス向上案
- マッパーサイズの変更
- JOB入力サイズの変更
- JOB完了時間を早くさせる
- S3バケットとの連携手法
- Hadoop環境との直接統合する際にS3DistCpを使用する
- コストは高い(らしい)
- パフォーマンス向上案
-
DynamoDB
- ホットキーの要因になりうるのはLSI(GSIは無関係)