2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

AWS DEA受験レポート

Last updated at Posted at 2024-05-07

概要

Data Engineer Associate(DEA)は2024/04より一般に公開された新しいAWS認定です。

廃止となったData Analytics Specialty, Database Specialtyの範囲をカバーしているようです。

感想

まず自身の経験値ですが、DAS,DBSを取得済みでMLSは未取得です。業務でもビッグデータまわりの経験は皆無です。関連技術スタックについてもDAS受験時に知ったものがほとんどでした。

DAS,DBS,MLSの範囲から出題がある模様で、出題範囲がかなり広範です。
さらに機能を知っている程度では選択肢を絞り切れないような問題が多く、特にGlue,Redshift,Athena,EMR,Kinesis,StepFunctionsなどはBlackBeltだけでは不十分で公式ドキュメントも全編しっかり目を通しておく必要性を感じました。
SageMakerも詳細ではないものの出題範囲で、固有名称のついた機能が何を司るかは覚えておく必要がありました。
しかしそれだけの範囲を覚えたり実際に操作するのはかなりの時間を要すはずで、業務で触れていない自分は、SkillBuilderの公式模試を受けないで合格するビジョンが全く見えませんでした。
総じて、難易度がDASと同等かそれ以上に感じられました。
今後他の資格も試験内容がアップデートされ、DEAと同等の難易度になるとすると、認定の継続はかなり困難になるだろうなという印象です。

使用教材

特にSkillBuilder公式模試をおススメします。


その他参考


以下学習メモ

関連する技術スタック

  • MapReduce,Hadoop,Spark
    • 分散コンピューティングフレームワーク
  • HBase
    • 分散DB
  • Pig
    • スクリプト言語
  • Avro,ORC,Parquet
    • ビッグデータファイル形式
  • Presto,Trino
    • SQLクエリエンジン
    • Athena
  • Hive, Hive metastore
    • Glue Data Catalog
  • Oozie
    • ワークフロー,ジョブ管理
  • Delta Lake,Hudi,Iceberg
    • データレイク
  • Ganglia
    • クラスターモニタリング
  • Flink
    • ストリーム処理,分析
    • Kinesis Analytics
  • Tez
    • タスクワークフローエンジン(DAG)
  • Zeppelin
    • インタラクティブノートブック環境

コンピューティング

EC2

Lambda

  • 最大実行時間 15分

Batch

  • ジョブはECSクラスターで実行される

EMR

データソース,ストレージ

S3

  • リソースベースポリシー(バケットポリシー/アクセスポリシー)
  • 暗号化,バージョニング,ライフサイクル管理ポリシー,イベント通知
  • クロスリージョンレプリケーション,アクセスポイント,オブジェクトロック
  • 削除保護にはバージョニングをON
  • Object Lambda
  • ストレージクラス
    Standard,Intelijent,Express-1zone,1zone-IA
    Glacier Instant Retrieval, Flexible Retrieval, Deep Archive
  • Mountpoint for S3
  • S3 Select

RDS

  • Aurora(MySQL,PostgreSQL)
    Data API
  • MySQL,PostgreSQL,MariaDB,Oracle,SQL Server

Neptune

  • グラフDB
  • Provisioned,Serverless
  • Gremlin,SPARQL,openCypher

DocumentDB

  • MongoDB互換

Keyspaces

  • Cassandra互換
  • CQL

DynamoDB

  • KeyValue型NoSQLDB
  • イベントストリーム機能

MemoryDB for Redis

  • Redis互換のインメモリDB

ファイルストレージ

EFS

FSx

データ収集

Lake Formation

  • 行レベルアクセスコントロール

ストリーム

Kinesis Data Streams

  • on demand

Kinesis Data Firehose

  • S3,Redshift,OpenSearchへ直接配信

Managed Streaming for Kafka

  • Provisioned,Serverless

データ処理

Managed Apache Flink

  • 標準SQL

Glue

  • Data Catalog
  • Data Quality
  • DataBrew ノーコードのビジュアルデータ準備ツール
    • NEST_TO_MAP変換 ->KV型
    • NEST_TO_ARRAY変換
    • PIVOT変換 行から新たな列を生成
  • Schema Registory
  • DynamicFrame
  • Studio
    • Detect PII

EMR

  • Hadoop,Sparkなどのフレームワーク実行環境
  • HDFS,EMRFS
  • RunJobFlow
    • KeepJobFlowAliveWhenNoSteps

Macie

  • S3データの個人情報検出

ワークフロー

Step Functions

  • ステートマシンに基づくワークフロー
  • ASL(Amazon State Language)
  • ステート
    • Parallel
    • Map
    • Wait
    • Choice

Managed Workflow for Apache Airflow

  • 有向非巡回グラフ(DAG)でワークフローを表現

イベント連携

AppFlow

  • SaaS連携

EventBridge

  • イベントバス

キュー

MQ

  • Apache ActiveMQ メッセージブローカーサービス

SQS

  • スタンダード,FIFO

分析

Athena

  • Presto
  • CSV,JSON,ORC,Parquet,Avro
  • S3のデータを分析
  • FederatedQueryによりRDS,DynamoDB,DocumentDBにもクエリ可能
    • データソースコネクタにより実現
  • Express One Zone と組み合わせて高速化
  • ワークグループ
  • データ使用量コントロール
  • クエリ結果再利用
  • Spark
    • データソースコネクタまたはワークグループ
  • パーティションプロジェクション

Redshift

  • DWH
  • PostgreSQL互換
  • FederatedQueryによりRDS(PostgreSQL,MySQL)にもクエリ可能
  • COPYコマンド
  • 自動COPY S3への新規ファイル格納イベントをトリガーに
  • Data API
    • 非同期
    • 最大クエリ期間,最大結果保持期間は24時間
    • クエリ最大サイズは100MB
  • query editor v2
  • WLM(ワークロード管理)
    • 同時実行スケーリング
  • 分散スタイル
    • AUTO,ALL,EVEN,KEY
  • 自動化された最適化チューニング 自動テーブル最適化
  • Data Sharing(RA3,Serverless,クロスアカウント,クロスリージョン)
  • Data Exchange for Redshift
  • Streaming Ingestion KDS,MSK->マテリアライズドビュー
  • Zero-ETL for Aurora
  • ML XGBoost,K-MEANS,MLP,LinearLearner,BYOM
  • 自動マテリアライズドビュー クエリリライト
  • SQA(Short Query Acceleration) 専用高速キュー
  • Elastic Resize(RA3,DC2)
  • 同時実行スケーリング(RA3,DC2) デフォルトOFF
  • クラスター再配置(RA3) 別AZにフェールオーバー
  • Multi-AZ配置(RA3) フェイルオーバー時接続断あり
  • エンドツーエンド暗号化,IAM連携,シングルサインオン,多要素認証
  • テーブルや列単位での権限制御
    • GRANTコマンド
  • SOC123,PCI-DSS,FedRAMP,HIPAA
  • マネージドVPCエンドポイント(別のVPCから閉域接続)(RA3 and クラスター再配置 or Serverless)
  • CLS,RLS,RBAC
  • 動的データマスキング マスキングポリシーで定義
  • RSQL コマンドラインクライアント
  • ストアドプロシージャ PL/pgSQL
  • スカラーLambda UDFs 拡張SQL関数
  • データ型
    • SUPER型 半構造化データ JSON PartiQL
    • 空間データ型 GEOMETRY型 GEOGRAPHY型 空間関数
  • システムテーブル
    • STL_ALERT_EVENT_LOG
    • STL_USAGE_CONTROL
    • STL_QUERY_METRICS
    • STL_PLAN_INFO

Redshift Spectrum

  • S3(Parquet,ORC,JSON,CSV,etc)

OpenSearch Service

  • Provisioned,Serverless

機械学習

SageMaker

  • Neo 特定デバイス向けに最適化
  • Search モデル検索
  • RL 強化学習
  • Ground Truth(Plus) データセット作成
  • Studio IDE
  • Experiments
  • Notebooks ノートブック管理
  • Debugger
  • Autopilot モデル自動作成
  • Training Compiler モデルトレーニングをコンパイルし高速化
  • Processing 前後処理や評価処理
  • Model Monitor
  • Pipelines
  • Feature Store 特徴量管理リポジトリ
  • Data Wrangler
  • Clarify バイアス検出
  • Canvas
  • Inference Recommender
  • Serverless Inference
  • Studio Lab
  • ML Governance

可視化

QuickSight

  • Enterprise Edition ではIAMとは別の権限管理が可能
  • インメモリDB SPICE
  • ハンズオン

Managed Service for Grafana

Managed Service for Prometheus

  • PromQL
  • EKS,ECSサポート

データ移行

  • Storage Gateway
  • Database Migration Service
    • ストリームデータが発生する
  • Snow Family
    • Snowball,Snowball Edge,Snowcone,Snowmobile
  • DataSync
    • 高速移行
    • エラーハンドリング,差分チェック,整合性チェック,メタデータ考慮
    • オンプレからはAgent(仮想アプライアンス)を設置
    • S3,EFS,FSx <-> Agent,NFS,SMB,Snowcone
    • S3 <-> S3 on Outpost
    • DRのためのレプリケーション

Data Pipeline

  • DynamoDB,RDS,Redshift,S3間でデータ移行と変換
  • EC2,EMRで処理

バックアップ

Backup

2
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?