前提
- 4年目エンジニア
- アプリケーション開発メイン
- インフラはあんまり触らない
- AWS CLF, Associate3つ, AWS SAPは保持
- 受験日 2022/5/4
##試験結果
点数:806点/750点/1000点(取得スコア/合格ボーダー/満点スコア)
スコアパフォーマンス: "分野4:分析および可視化"を除くセクションは"コンピテンシーを満たしている"
試験感想
DASに関してはインターネット上に情報が少なく、対応している書籍も日本語ではないので、勉強の仕方に苦労しました。
受験予約は結構昔にしていましたが、実際の勉強期間は試験ガイドを確認初めてから2週間くらいでGWに入ってから詰め込んだ感じでした…
勉強は以下の流れで進めていきました。
(Bigdata on AWS)→ DAS試験ガイド→ データレイク書籍→ whizlab動画 サマリ視聴→ whizlab 模擬問題 →AWS公式サンプル問題、公式練習問題集
-
DAS公式ガイド
- 公式が出してくれている試験に関するガイド資料。試験対象のサービスや問われる観点を確認しました。
-
データレイク書籍
- さまざまな方の受験体験記で言及されていたので購入して読了。ハンズオン形式だったがハンズオンは実施せず、一通り流し読みして書籍で出てくるサービス概要や連携の仕方を把握するために使用しました。
-
whizlab
- 過去に5年サブスクリプションで買っていたため、模擬問題、解説動画、ラボ使用し放題の状態です。解説動画は英語なので(集中力が保たず、)各セクションのサマリ動画のみ視聴、あとは模擬問題を繰り返し、実施しました。模擬問題でよくわからなかった部分に関してはBlackbelt等を使用していました。
-
AWS公式サンプル問題,公式練習問題集
- おなじみAWS公式のサンプル問題、公式練習問題集。
受験中にはいくつか初見のサービスもありました(Data Exchangeなど)が、おおむね模擬問題やサンプル問題等の傾向と変わらない印象を受けました。
勉強メモ
(正確性は保証しません)
Kinesis Data Stream
- 書き込みスロットリング時の対応
- シャードの数を増やす
- ランダムなパーティションキーを使用し、シャード間の配分を均等になるように調整する
Kinesis Data Firehose
- データターゲット
- S3
- Redshift(S3経由)
- ES
- Splunk
- データ変換
- Lambdaによるデータ変換が可能(機密情報の削除など)
Kinesis Data Analytics
- リアルタイム分析ツール(Firehoseと組み合わせ)
- アルゴリズム
- Random Cut Forest (RCF): 異常検出アルゴリズムのひとつ
- データ出力先
- Kinesis Data Firehose
- Lambda
- Kinesis Data Streams
- ウインドウクエリ
- スタッガーウインドウ: データの到着に合わせて開く、時間ベースのウインドウによるデータ集約
- タンブリングウインドウ: 一定間隔で開閉し、各ウインドウに重複しない。周期的なレポート用。
- スライディングウインドウ: 固定の時間で継続的にデータを集約
Redshift
- ノードタイプ
- DC2(dense compute, 高密度のコンピュートノード): SSD, 低ストレージ、高I/O (ノードあたり最大2.56TB, 7.5GB/s)
- DS2(dense storage, 高密度のストレージノード): HDD, 高ストレージ、低I/O (ノードあたり最大16TB, 3.3GB/s)
- リサイズアプローチ
- 弾性リサイズ(Elastic resize): ノードタイプ、ノード数、その両方を変更可能。ノード数のみであればクエリを一時停止、接続は可能な限り保持される。 10分から15分必要
- クラシックリサイズ(Classic resize):弾性リサイズでできない構成(From/To シングルノードクラスターetc)への変更で使用。2時間から2日以上必要
- 分散スタイル
- ファクトテーブルと 1 つのディメンションテーブルを共通の列に基づいて分散させる
- フィルタリングされたデータセットのサイズに基づいて最大ディメンションを選択
- フィルタリングされた結果セットでカーディナリティが高いDISTKEYを選択
- DISTSTYLE ALL 分散を使用する
- キー設定
- DISTSTYLE: 各テーブルのノードへのレコード分散方法
- DISTキー: 分散の基準となるカラム
- 結合したい2テーブルの外部キーの両方を指定
- データロード
- COPYコマンド: S3バケット内のファイルから並列処理でロードできる
- 複数の同時COPYコマンド実行では直列実行となり、パフォーマンスが下がる
- 一時的なステージングテーブルを作成、ロードする
- マニフェストファイルを使用したCOPYコマンドの実行
- COPY処理の高速化
- ファイル数がクラスタ内のスライス数の倍数になるようにファイルを分割する
- 圧縮後ファイルサイズが1MB〜1GBで均等なサイズ
- 複数の同時COPYコマンド実行では直列実行となり、パフォーマンスが下がる
- VACUUM処理: 削除フラグのついた領域の解放の実施
- COPYコマンド: S3バケット内のファイルから並列処理でロードできる
- データエクスポート
- Glueを使用しS3へUNLOADが可能
- 機密データへのアクセス制御
- カラムレベルアクセスコントロール
- 列単位でGRANT, REVOKEステートメントが実行可能
- カラムレベルアクセスコントロール
Redshift Spectrum
- S3をデータソースにRedshift同様の分析が可能
EMR
- Hadoop
- バージョン
- レガシーと最新がある
- レガシーから最新へ移行し、Javaプログラムを活用する場合、CUSTOM_JARステップを設定、Javaプログラムを再コンパイルする
- レガシーと最新がある
- バージョン
- Spark
- データロード, ダッシュボード更新時間の短縮
- Spark DataFrames : データの列について整理
- データロード, ダッシュボード更新時間の短縮
- Hive
- メタデータ
- デフォルトではマスターノードのMySQLに保管。クラスタ終了時、データ削除
- 永続化する場合、外部メタストアを構築する必要がある(Glue Data Catalog, RDSやAurora)
- メタデータ
- CloudFormationとの連携
- ノードのインスタンス
- CustomAmiIdプロパティにカスタムAMIを設定
- ノードのインスタンス
- 構成オプション
- インスタンスフリート
- インスタンスグループ(オートスケーリング可)
- S3select
- 使用可能
- データロード
- D3DistCp: S3からEMRへデータをコピー
- 監視
- IsIdleメトリック
- yarnジョブの稼働をチェックしアイドル状態かを確認
- 児童スケーリングによく使われるメトリクス
- YarnMemoryAvailablePercentage: Yarnが使用できる残りメモリの割合
- ContainerPendingRatio: 保留中コンテナと割り当て済みコンテナの比率
- IsIdleメトリック
- 暗号化
- クラスターのルートボリュームの暗号化
- EBSはLinux Unified Key Setup(LUKS)で暗号化される
- 稼働中クラスタのルートボリューム暗号化
- セキュリティ設定でローカルディスクの暗号化を指定
- クラスターのルートボリュームの暗号化
Glue
- ETLスクリプト言語
- Python
- Scala
- テーブル/パーティションの更新
- ETLスクリプトでenableUpdateCatalogを含む修正を行う
- クローラのパフォーマンス向上
- 除外パターンの使用
- 複数のクローラの実行
- 小さいファイルを結合し大きいファイルの作成
- コストコントロール: 互いに独立している
- クエリ単位の制限
- ワークグループごとの制限
LakeFormation
- データレイク構築サービス
- ストレージ層: S3
- 新しいバケットを作成、データをインポートする
- 既にS3を使用している場合、LakeFormationに既存のS3バケットを登録する
- データカタログ作成: Glueと統合
- セキュリティ
- ポリシーを利用し、データアクセスを詳細制御可能
- IAMユーザ、ロール、グループ、ADユーザ
- カタログオブジェクト(テーブル、カラムなど)↔︎Notバケット、オブジェクト
- ポリシーを利用し、データアクセスを詳細制御可能
- ブループリント: データの読み込みとカタログ化のため
- RDSやEC2上のMySQL, PostgreSQL, SQL server, MariaDB, OracleDBからインポート
- JDBCを使ってオンプレDBにも対応
Athena
- データソース
- 単一のS3バケット
- クエリ
- ODBC接続可能
- INSERT文を実行できるが、ソースデータを編集しない
- パフォーマンス改善
- ファイルサイズの最適化
- 使用制限: 制限を超えた場合、後続のクエリはキャンセルされる
- クエリごとの制限
- ワークグループごとの制限
ElasticSerach
- 可視化ツールとの連携
- Kibanaが良い(QuickSightは次点)
QuickSight
- データソース
- Athenaテーブル
- QuickSightへAthenaテーブルのS3ソースバケットへのアクセス権限を付与する
- Athenaテーブル
- AD連携
- 要Enterprise版
- AWS Directory Service, AD Connectorのサポート
- 要Enterprise版
IoT Core
- データソース
- デバイス(MQTTプロトコル)
- 分析
- IoT Analytics
- 時系列分析のための処理、保存、レポート作成を行う
- IoT Analytics
その他
- Apache Parquet: 圧縮された列指向型データストレージ形式。EMR(Spark)やAthenaで扱える。圧縮されているためコスト効率が良い。