More than 1 year has passed since last update.

株式会社システムアイ

AWS DEA受験レポート

Last updated at 2024-05-07Posted at 2024-05-07

概要

Data Engineer Associate(DEA)は2024/04より一般に公開された新しいAWS認定です。

廃止となったData Analytics Specialty, Database Specialtyの範囲をカバーしているようです。

感想

まず自身の経験値ですが、DAS,DBSを取得済みでMLSは未取得です。業務でもビッグデータまわりの経験は皆無です。関連技術スタックについてもDAS受験時に知ったものがほとんどでした。

DAS,DBS,MLSの範囲から出題がある模様で、出題範囲がかなり広範です。
さらに機能を知っている程度では選択肢を絞り切れないような問題が多く、特にGlue,Redshift,Athena,EMR,Kinesis,StepFunctionsなどはBlackBeltだけでは不十分で公式ドキュメントも全編しっかり目を通しておく必要性を感じました。
SageMakerも詳細ではないものの出題範囲で、固有名称のついた機能が何を司るかは覚えておく必要がありました。
しかしそれだけの範囲を覚えたり実際に操作するのはかなりの時間を要すはずで、業務で触れていない自分は、SkillBuilderの公式模試を受けないで合格するビジョンが全く見えませんでした。
総じて、難易度がDASと同等かそれ以上に感じられました。
今後他の資格も試験内容がアップデートされ、DEAと同等の難易度になるとすると、認定の継続はかなり困難になるだろうなという印象です。

使用教材

特にSkillBuilder公式模試をおススメします。

各種BlackBelt Youtube
SkillBuilder公式模試(こちらはサブスクリプションが必要)
要点整理から攻略する『AWS認定データ分析-専門知識』
Udemy【DEA-C01対応】AWS認定データエンジニアアソシエイト模擬問題集＋詳解

その他参考

以下学習メモ

コンピューティング

EC2

分散ノードにスポットインスタンスやスポットキャパシティを利用する

Lambda

最大実行時間 15分

Batch

ジョブはECSクラスターで実行される

EMR

データソース,ストレージ

S3

リソースベースポリシー(バケットポリシー/アクセスポリシー)
暗号化,バージョニング,ライフサイクル管理ポリシー,イベント通知
クロスリージョンレプリケーション,アクセスポイント,オブジェクトロック
削除保護にはバージョニングをON
Object Lambda
ストレージクラス
Standard,Intelijent,Express-1zone,1zone-IA
Glacier Instant Retrieval, Flexible Retrieval, Deep Archive
Mountpoint for S3
S3 Select

RDS

Aurora(MySQL,PostgreSQL)
Data API
MySQL,PostgreSQL,MariaDB,Oracle,SQL Server

Neptune

グラフDB
Provisioned,Serverless
Gremlin,SPARQL,openCypher

DocumentDB

MongoDB互換

Keyspaces

Cassandra互換
CQL

DynamoDB

KeyValue型NoSQLDB
イベントストリーム機能

MemoryDB for Redis

Redis互換のインメモリDB

ファイルストレージ

EFS

FSx

データ収集

Lake Formation

行レベルアクセスコントロール

ストリーム

Kinesis Data Streams

on demand

Kinesis Data Firehose

S3,Redshift,OpenSearchへ直接配信

Managed Streaming for Kafka

Provisioned,Serverless

データ処理

Managed Apache Flink

標準SQL

Glue

Data Catalog
- パーティションインデックス
Data Quality
DataBrew ノーコードのビジュアルデータ準備ツール
- NEST_TO_MAP変換 ->KV型
- NEST_TO_ARRAY変換
- PIVOT変換行から新たな列を生成
Schema Registory
DynamicFrame
Studio
- Detect PII

EMR

Hadoop,Sparkなどのフレームワーク実行環境
HDFS,EMRFS
RunJobFlow
- KeepJobFlowAliveWhenNoSteps

Macie

S3データの個人情報検出

ワークフロー

Step Functions

ステートマシンに基づくワークフロー
ASL(Amazon State Language)
ステート
- Parallel
- Map
- Wait
- Choice

Managed Workflow for Apache Airflow

有向非巡回グラフ(DAG)でワークフローを表現

イベント連携

AppFlow

SaaS連携

EventBridge

イベントバス

キュー

MQ

Apache ActiveMQ メッセージブローカーサービス

SQS

スタンダード,FIFO

分析

Athena

Presto
CSV,JSON,ORC,Parquet,Avro
S3のデータを分析
FederatedQueryによりRDS,DynamoDB,DocumentDBにもクエリ可能
- データソースコネクタにより実現
Express One Zone と組み合わせて高速化
ワークグループ
データ使用量コントロール
クエリ結果再利用
Spark
- データソースコネクタまたはワークグループ
パーティションプロジェクション

Redshift

DWH
PostgreSQL互換
FederatedQueryによりRDS(PostgreSQL,MySQL)にもクエリ可能
COPYコマンド
自動COPY S3への新規ファイル格納イベントをトリガーに
Data API
- 非同期
- 最大クエリ期間,最大結果保持期間は24時間
- クエリ最大サイズは100MB
query editor v2
WLM(ワークロード管理)
- 同時実行スケーリング
分散スタイル
- AUTO,ALL,EVEN,KEY
自動化された最適化チューニング自動テーブル最適化
Data Sharing(RA3,Serverless,クロスアカウント,クロスリージョン)
Data Exchange for Redshift
Streaming Ingestion KDS,MSK->マテリアライズドビュー
Zero-ETL for Aurora
ML XGBoost,K-MEANS,MLP,LinearLearner,BYOM
自動マテリアライズドビュークエリリライト
SQA(Short Query Acceleration) 専用高速キュー
Elastic Resize(RA3,DC2)
同時実行スケーリング(RA3,DC2) デフォルトOFF
クラスター再配置(RA3) 別AZにフェールオーバー
Multi-AZ配置(RA3) フェイルオーバー時接続断あり
エンドツーエンド暗号化,IAM連携,シングルサインオン,多要素認証
テーブルや列単位での権限制御
- GRANTコマンド
SOC123,PCI-DSS,FedRAMP,HIPAA
マネージドVPCエンドポイント(別のVPCから閉域接続)(RA3 and クラスター再配置 or Serverless)
CLS,RLS,RBAC
動的データマスキングマスキングポリシーで定義
RSQL コマンドラインクライアント
ストアドプロシージャ PL/pgSQL
スカラーLambda UDFs 拡張SQL関数
データ型
- SUPER型半構造化データ JSON PartiQL
- 空間データ型 GEOMETRY型 GEOGRAPHY型空間関数
システムテーブル
- STL_ALERT_EVENT_LOG
- STL_USAGE_CONTROL
- STL_QUERY_METRICS
- STL_PLAN_INFO

Redshift Spectrum

S3(Parquet,ORC,JSON,CSV,etc)

OpenSearch Service

Provisioned,Serverless

機械学習

SageMaker

Neo 特定デバイス向けに最適化
Search モデル検索
RL 強化学習
Ground Truth(Plus) データセット作成
Studio IDE
Experiments
Notebooks ノートブック管理
Debugger
Autopilot モデル自動作成
Training Compiler モデルトレーニングをコンパイルし高速化
Processing 前後処理や評価処理
Model Monitor
Pipelines
Feature Store 特徴量管理リポジトリ
Data Wrangler
Clarify バイアス検出
Canvas
Inference Recommender
Serverless Inference
Studio Lab
ML Governance

可視化

QuickSight

Enterprise Edition ではIAMとは別の権限管理が可能
- RLS
インメモリDB SPICE
ハンズオン

Managed Service for Grafana

Managed Service for Prometheus

PromQL
EKS,ECSサポート

データ移行

Storage Gateway
Database Migration Service
- ストリームデータが発生する
Snow Family
- Snowball,Snowball Edge,Snowcone,Snowmobile
DataSync
- 高速移行
- エラーハンドリング,差分チェック,整合性チェック,メタデータ考慮
- オンプレからはAgent(仮想アプライアンス)を設置
- S3,EFS,FSx <-> Agent,NFS,SMB,Snowcone
- S3 <-> S3 on Outpost
- DRのためのレプリケーション

Data Pipeline

DynamoDB,RDS,Redshift,S3間でデータ移行と変換
EC2,EMRで処理

バックアップ

Backup

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up