DEA攻略メモ・日記

Last updated at 2025-01-15Posted at 2025-01-15

メモ・日記なんで

12/25
時間が無くて、
一日に65問×3を解いた。
・1問1答的に解く。
・知らん用語はガンガン覚える。理解<暗記

翌日12/26
その日に、もう一周したあと受験。

前提
・過去にredshift、glueなどの、blackベルト動画見るのはすべてやった。
・AWSオールサートを目指しており、基礎的な共通事項(IAMとかS3とかVPCとか）は完璧。

時系列
・12/25なぞに5時に目が覚める。軽く問題を解きながらも集中しきらない。昨日の合格の余韻が残っていてよくない。
・家にいてはだめだと出社を決める。7時くらいに家を出る。
・8時くらいに会社着。もう来てる人おるやんけ。。
・あとのほうの問題のほうが出ると考え、208-140までの78問を解く。
・10時解き切る。11:45の1on1まで、業務タスクをやる。
PC壊れたことで、消えてしまったseleniumのタスクのPRを記憶を頼りに作る。
・1on1やMTG
・飯食いがてら65問やる
・その他業務やる
・終業し、65問やる。早起きしたのでねむたすぎる。

翌日
・12/26 爆睡して5時に起床。ツイッターやインスタは開かずに問題を開く。
・めっちゃ解けるようになってるではないか。
・細かいワークフロー系のサービスの選択とか、glue使うぽくみえてlambdaで変換しちゃうやつとか、細かい部分を内省的に詰める
・理解が無くて解けてない部分をchatgptに聞く。distributionの話(even,all)とか。そもそもデータカタログって何か、とか。predicatesとは、とか。MSCK repairとは、とか。S3 selectってなんでACIDじゃないのかとか。トレースってなにか、とか。federated queryの意味とか。
・平行して、業務のルーティンタスクをこまめに進める。
・16時半受験
・見直ししたうえで退室。
・合格通知20:19

一旦暫定の理解でガンガンメモしていく

ここわかんねえな感も残るようにする。

あとは、暫定の理解を深めるor暫定の理解のまま暗記して、勝負に挑む。

理解を深める作業は翌日直前の自分がやってくれました。

では、以下メモです。

メモ（メモです。）

DEA

用語
MSCK REPAIR TABLE

192 S3 object lambda + comprehend
189 A. Confirm that Athena is pointing to the correct Amazon S3 location.
C. Use the MSCK REPAIR TABLE command.
Athena から新しいパーティションのデータをクエリできるように MSCK REPAIR TABLE を実行します
186 level-aware calculation aggregate
184 analyze compression
183 Glue databrew レシピ
182 在庫のレコメンド redshift ML + sagemaker endpoint
180 P2だけどmacieじゃない。IAMによるP2への制御と、Databrewによる変換
https://aws.amazon.com/tw/blogs/big-data/build-a-data-pipeline-to-automatically-discover-and-mask-pii-data-with-aws-glue-databrew/
databrewの中にもP2検知が含まれてる。
178　? datasyncやったらリージョン内っていう要件満たさなくない？
177 https://aws.amazon.com/tw/blogs/big-data/build-an-etl-process-for-amazon-redshift-using-amazon-s3-event-notifications-and-aws-step-functions/
176 S3はRAMいらん
175 DynamoのTTLは1か月とかもいける
174 JSONを日付prefixで、paquetに変換して、Athenaのパーティションテーブルにする
173 Amazon S3 Storage Lens ダッシュボードで、古いバージョンや不完全なマルチパートアップロードを検出
172 よく出るやつ。glueの品質担保はこれ
AWS Glue データ品質ルールを使用するように AWS Glue ETL パイプラインを設定します。必須フィールドと空のファイルに欠落している値がないかチェックするために、データ品質定義言語 (DQDL) でルールを作成します。
171 data品質ルールは、p2も扱える
https://aws.amazon.com/blogs/big-data/enforce-customized-data-quality-rules-in-aws-glue-databrew/
170 data catalogに、format meta dataを入れるために、AWS Glue crawler classifiersを使う。
https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html
このclassifierの作成あたりは、細かい手順ベースで見直しておく
https://docs.aws.amazon.com/glue/latest/dg/add-classifier.html
169 MSK クラスターストレージが自動的に拡張
168 Redshiftには動的なマスキング機能ある。
https://docs.aws.amazon.com/redshift/latest/dg/t_ddm.html
チームごとに個別の Amazon Redshift データベースロールを作成します。各チームに個別に適用されるマスキングポリシーを定義します。各チームロールに適切なマスキングポリシーをアタッチします。
166 SQSかまして、そのイベントからGlue crawrerやる
165 ?
163 チームごとに個別の Amazon Redshift データベースロールを作成します。各チームに個別に適用されるマスキングポリシーを定義します。各チームロールに適切なマスキングポリシーをアタッチします。
162 超高速並列インメモリ計算エンジン (SPICE)
Define and create the calculated field in the dataset.
https://docs.aws.amazon.com/quicksight/latest/user/adding-a-calculated-field-analysis.html
161 AUTO distribution
160 Amazon DynamoDB ストリームを使用してテーブルの変更をキャプチャします。AWS Lambda 関数を使用して、Amazon OpenSearch Service のデータを処理および更新します。
https://docs.aws.amazon.com/opensearch-service/latest/developerguide/configure-client-ddb.html
159 needs to correlate the cluster's logs with the application's traces to identify points of failure in the whole application request flow

トレースとは

EKSとかである監視の概念

Use FluentBit to collect logs. Use OpenTelemetry to collect traces.

Use Amazon OpenSearch to correlate the logs and traces.

157 共有する必要があるテーブルを含む Amazon Redshift データ共有を作成します。

Amazon Redshift データ共有をガバナンスアカウントの Lake Formation カタログに共有します。
156 A. cities_usa (city,state) に INSERT INTO し、city, state FROM cities_world WHERE country='usa'; を選択します。
155 D. データなしで TABLE new_table AS (SELECT * FROM old_table) を作成します。
154 S3 バケットでコンプライアンスモードを有効にします。デフォルトの保持期間は 7 年です。
153 サードパーティアプリケーションを構成して、列形式でファイルを作成します。
注文日に基づいて S3 バケット内の注文データを分割します。
152 1回きりなので、APIコールでOK
PutRecords API オペレーションを呼び出して Amazon Kinesis Data Streams にデータを送信するようにモバイルアプリを設定します。各内部コンシューマーのストリームで拡張ファンアウト機能を使用します。
151 Neptuneは
A. Gremlin
D. SPARQL
150 A. AWS Glue を使用して、運用システムから Amazon Redshift への取り込みパイプラインを構築し、注文を追跡する Amazon QuickSight のダッシュボードを構築します。
149 再注文システムが重複データを受信した原因
A. プロデューサーがネットワーク関連のタイムアウトを経験しました。
C. シャード数、レコードプロセッサ数、またはその両方に変更がありました。
148 . AWS Glue の FindMatches 機能を使用して重複レコードを削除します。
147 ある運送会社は、地理位置情報の記録を取得して車両の動きを追跡したいと考えています。記録のサイズは 10 バイトです。会社は毎秒最大 10,000 件の記録を受信します。ネットワークの状態が不安定なため、数分のデータ転送遅延は許容されます。

運送会社は、Amazon Kinesis Data Streams を使用して地理位置情報データを取り込みたいと考えています。会社には、Kinesis Data Streams にデータを送信するための信頼性の高いメカニズムが必要です。会社は、Kinesis シャードのスループット効率を最大化する必要があります。

どのソリューションが、最も運用効率の高い方法でこれらの要件を満たすでしょうか。
Kinesis プロデューサーライブラリ (KPL)
146 オラクルからの継続的な移行。ブックマークジョブじゃダメ。DMSで。

継続的なレプリケーション用の AWS Database Migration Service (AWS DMS) タスクを作成します。Oracle データベースをソースとして設定します。Amazon S3 をターゲットとして設定します。データを Parquet 形式で書き込むようにタスクを設定します。
145 同じく。フルロード&CDC
144 Kinesis Data Streams からの Amazon Redshift ストリーミング取り込みを使用し、データをマテリアライズドビューとして提示します。

これによって、S3挟まなくとも、いい感じに取り込める。
143 クエリエディタはこれじゃない。S3からのnear real time 取り込みはevent通知+Lambda
142 A. 既存の Redshift クラスターを、プライベートサブネットにある新しい Redshift クラスターに置き換えます。インターフェイス VPC エンドポイントを使用して、Redshift クラスターに接続します。NAT ゲートウェイを使用して、Redshift に S3 バケットへのアクセス権を付与します。

C. Amazon Redshift クラスターの拡張 VPC ルーティングをオンにします。AWS Direct Connect 接続を設定し、各データプロバイダーと金融会社の VPC 間の接続を構成します。
(旧試験）141 すべてのユーザーに、機密データを含まない列への読み取り専用権限を付与します。監査チームが機密データを含む列にアクセスできるようにするには、GRANT SELECT コマンドを使用します。
140 AWS Glue の動的フレームファイルグループ化オプションを使用して、生の入力ファイルを取り込みます。ファイルを処理します。ファイルを Amazon Redshift テーブルにロードします。
139 B. Select *from Employee where Region ID=’North America’ and Department ID=20;

E. Select *from Employee where Region ID=’North America’ and Role ID=50;
137 よくわからん。B. 編集を行うために AWS Glue Data Quality への API 呼び出しを行う AWS Lambda 関数を作成します。
136 SQS キューを作成し、AWS KMS によるサーバー側暗号化を使用してキューを暗号化します。
135 C. .json ファイルを S3 バケット内の別のパスに再配置します。
134 D. ETL ジョブで AWS Lake Formation FindMatches 変換をトレーニングして使用します。
133 D. 単一の COPY コマンドを使用して、データを Redshift クラスターにロードします。
132 よくわからん。stagingを挟むとなぜ重複しなくなる？
A. AWS Glue ジョブを変更して、行をステージング Redshift テーブルにコピーします。ステージング Redshift テーブルからの新しい値で既存の行を更新する SQL コマンドを追加します。
131 C. Switch the task node type from general purpose Re instances to compute optimized EC2 instances.
130 A. Redshift クラスターの構成設定で、サードパーティの IdP を ID プロバイダーとして登録します。
129 A. 国がカナダである行へのユーザーアクセスを防止するために行レベルのフィルターを設定します。
128 Amazon Kinesis Data Firehose と AWS Lambda 関数を使用してデータを変換し、変換されたデータを OpenSearch Service に配信します。
126 A. OpenSearch サービスのデータを使用して OpenSearch ダッシュボードを作成します。
125 A. メッセージの保存期間を延長する
C. デッドレターキュー (DLQ) を SQS キューに接続します。
デッドレターキュー (DLQ) は、エラーのためにソフトウェアシステムが処理できないメッセージを一時的に保存する特別なタイプのメッセージキューです。メッセージキューは、分散システムにおける非同期通信をサポートするソフトウェアコンポーネントです。

デッドレターキュー (DLQ) は通常のメッセージキューと並んで存在します。誤ったメッセージや失敗したメッセージの一時的な保存場所として機能します。DLQ は、ソースキューが未処理のメッセージであふれるのを防ぎます。

124
A. 各オブジェクトのオブジェクト形式、圧縮タイプ、スキーマが同じであることを確認します。

D. 各 S3 オブジェクト名のプレフィックスの構造が一貫していることを確認します。

123 D. 各 S3 オブジェクト名のプレフィックスの構造が一貫していることを確認します。
122 B. Amazon S3 の VPC ゲートウェイエンドポイントを作成します。ネットワークトラフィックを VPC ゲートウェイエンドポイントにルーティングします。
120 B. 処理アプリケーションを変更して、データを Amazon Kinesis データストリームに公開します。ネットワーク使用量の低下を検出するために、Amazon Managed Service for Apache Flink (旧称 Amazon Kinesis Data Analytics) アプリケーションを作成します。
119 B. S3 バケットの S3 バージョン管理を有効にします。
118 A. ソースの各レコードに一意の ID を埋め込むことで、処理中に重複を削除できるようにアプリケーションを設計します。
117 C. Job bookmarks
116 カフカベースのリプラットフォームだから
Apache Kafka 向け Amazon マネージドストリーミング (Amazon MSK) サーバーレス
114
D. Kinesis Data Firehose を使用して、.csv ファイルを JSON に変換する AWS Lambda 関数を呼び出します。Kinesis Data Firehose を使用して、ファイルを Parquet 形式で保存します。最も投票された

ファイやホースそれ自体で、入力データの形式をjsonからappatch paquetやorcへの変換も行っている。
113 https://docs.aws.amazon.com/redshift/latest/dg/c_best-practices-single-copy-command.html

D. データファイルの場所を含むマニフェストファイルを作成します。COPY コマンドを使用して、データを Amazon Redshift にロードします。

112 A. eu-west-1 の Account_B に AWS DMS レプリケーションインスタンスを設定します。
111 原子性、一貫性、独立性、および耐久性 (ACID) 特性
これを担保するには、S3セレクトではなく、Athena
110 B. AWS Database Migration Service (AWS DMS) でフルロードと CDC タスクを実行し、MySQL データベースの変更を継続的にレプリケートします。タスクの送信先として Amazon Redshift を設定します。
109 3rd partyのデータ取り込みから楽に移行するならこれ
Apache Airflow 向け Amazon マネージドワークフロー (Amazon MVVAA)
108 AWS Glue ジョブには必須のコミットステートメントがありません
古いデータの再処理を防ぐために、コミットは必要。
107 B. Configure provisioned capacity for an existing workgroup
106 B. AWS KMS キーを使用したデュアルレイヤーのサーバー側暗号化 (DSSE-KMS) を使用します。
　https://docs.aws.amazon.com/AmazonS3/latest/userguide/UsingDSSEncryption.html
105 B. EventBridge が使用する IAM ロールと Lambda 関数のリソースベースのポリシーの両方に必要な権限があることを確認します。
103 Apache Airflow 向け Amazon マネージドワークフロー (Amazon MWAA)
移植性とオープンソースリソース優先でこれ。定番。
102 クリックストリームでこいつら。
B. Amazon Athenaを使用してクリックストリームデータをクエリする
E. QuickSight SPICE (超高速、並列、インメモリ計算エンジン) を介してクエリデータにアクセスします。データセットの毎日の更新を構成します。
101 クエリエディター v2 を使用して、ストアドプロシージャをスケジュールに従って実行します。
ストアドプロシージャはこれ。なぜかは知らん。
100 データを Amazon S3 に保存します。Amazon S3 Select を使用してデータをクエリします。
わからん。監査のための検索するくらいなら、S3 selectで十分というメッセージか。
98 むずい。
A. 毎日受信されるデータについては、AWS Glue クローラーを使用してスキーマをスキャンして識別します。
D. 日次データとアーカイブデータの場合は、Amazon EMR を使用してデータ変換を実行します。
機械学習ワークロードだと、この感じになる。
97
C. Amazon Kinesis Data Streams を使用して Kinesis クライアントライブラリを呼び出し、データを S3 バケットに配信します。アプリケーションから 5 秒のバッファ間隔を使用します。

apatch flink使わんときの好例。
96

Amazon CloudWatch を使用して DMS タスクを監視します。CDCLatencySource メトリックを調べて、ソースデータベースからの CDC の遅延を特定します。

こういうcloudwatchのメトリクスを直接聞く系。

95 Select * from Sales where city_name ~ ‘^(San|El)*’;
山帽子は一致が先頭から始まることを意味した正規表現

94 Change the distribution style of the store location table from EVEN distribution to ALL distribution.

でたこれ。
キャッチアップ必要。
分散
even 分散、All分散

ALL分散のほうが速度は上がるが、データ量が多いと積むみたいな話

86 S3 ファイルゲートウェイのファイル転送イベントが成功するたびに AWS Glue ワークフローを開始する Amazon EventBridge イベントを設定します。

85 B. Create an AWS Glue crawler that includes a classifier that determines the schema of all ALB access logs and writes the partition metadata to AWS Glue Data Catalog.

84 要注意。EMRで、stepfunction。apath air flowは、あくまで、kafkaとかの基盤をそのままにしたいときで、amazon EMRはhadoopとかの大規模なやつ。だから、これは、stepfunctionでいける。

83 シンプルにairflowはこれに移行。
既存の Airflow オーケストレーション設定を Amazon Managed Workflows for Apache Airflow (Amazon MWAA) に移行します。取り込み中にデータ品質チェックを作成し、Airflow の SQL タスクを使用してデータ品質を検証します。

82 Snappyで圧縮されたApache Parquet形式
81 A. ALTER TABLE Orders ADD PARTITION(order_date=’2023-01-01’) LOCATION ‘s3://transactions/orders/order_date=2023-01-01’;
ALTER TABLE Orders ADD PARTITION(order_date=’2023-01-02’) LOCATION ‘s3://transactions/orders/order_date=2023-01-02’; Mo

79 B. S3 オブジェクト Lambda エンドポイントを作成します。S3 オブジェクト Lambda エンドポイントを使用して、S3 バケットからデータを読み取ります。S3 オブジェクト Lambda 関数内に編集ロジックを実装し、データにアクセスする各アプリケーションのニーズに基づいて PII を動的に編集します。

78 B. AWS Glue を使用してスキーマを検出し、データを抽出、変換して S3 バケットにロードします。Apache Spark でパイプラインを作成します。

76 A. AWS Glue を使用してデータソースをクロールします。メタデータを AWS Glue データカタログに保存します。Amazon Athena を使用してデータをクエリします。構造化データソースには SQL を使用します。JSON 形式で保存されているデータには PartiQL を使用します。

74 B. Amazon Redshift のストリーミング取り込み機能を使用します。

73 毎日２GB
D. AWS Glue DataBrew を使用して、COUNT_DISTINCT 集計関数を使用して個別の顧客数を計算するレシピを作成します。

69 AWS KMS キー (SSE-KMS) によるサーバー側暗号化を使用して、顧客情報を含むオブジェクトを暗号化します。オブジェクトを暗号化する KMS キーへのアクセスを制限する IAM ポリシーを設定します。

68 B. Use AWS Glue DataBrew to read the files. Use the NEST_TO_MAP transformation to create the new column.

67 C. ほとんど更新されない小さなテーブルには、ALL 分散スタイルを使用します。すべてのテーブルに主キーと外部キーを指定します。

66 B. SQL クエリに Amazon Athena のクエリ結果再利用機能を使用します。

65 B. Amazon EventBridge ルールを使用して、15 分ごとに AWS Glue ワークフロージョブを呼び出します。AWS Glue ワークフローを設定して、AWS Glue クローラーを実行し、クローラーが正常に実行を終了したときに AWS Glue ジョブを実行するオンデマンドトリガーを設定します。AWS Glue ジョブを設定して、データを処理して Amazon Redshift テーブルにロードします。

D. ファイルが S3 バケットにロードされたときに AWS Glue ワークフローを呼び出すように AWS Lambda 関数を設定します。AWS Glue ワークフローを設定して、AWS Glue クローラーを実行するオンデマンドトリガーを設定し、クローラーの実行が正常に終了したときに AWS Glue ジョブを実行します。AWS Glue ジョブを設定して、データを処理して Amazon Redshift テーブルにロードします。

64 A. Amazon Athena を使用してデータをクエリします。AWS Lake Formation を設定し、データフィルターを作成して、会社の IAM ロールのアクセスレベルを確立します。各ユーザーを、ユーザーの PII アクセス要件に一致する IAM ロールに割り当てます。

63 C. Amazon Kinesis Data Streams を使用してセンサーデータをキャプチャします。クエリ用にデータを Amazon DynamoDB に保存します。

62 C. VACUUM REINDEX Orders

60 C. Use an S3 bucket that is in the same AWS Region where the company runs Athena queries

E. Preprocess the .csv data to Apache Parquet format by fetching only the data blocks that are needed for predicates.

58 apatch hive

たぶん中規模なデータストア、くらいの理解で一旦OK.

Hive から中央メタデータリポジトリにメタデータをインポートする必要
→C. AWS Glue データカタログを使用します。

57 D. AWS CloudTraiL でデータイベントの証跡を作成します。トランザクション S3 バケットからデータを受信するように証跡を設定します。空のプレフィックスと書き込み専用イベントを指定します。ログ S3 バケットを宛先バケットとして指定します。

＞データイベントの証跡を作成
これで、S3に関するcloudtrailログの別バケットへの出力いける

55 redshiftはキーで全体に分散させてる。

54 apatch hadoopはEMRと等価のわりと最強のやつ

B. Amazon EMR で Hive メタストアを設定します。既存のオンプレミス Hive メタストアを Amazon EMR に移行します。AWS Glue Data Catalog を使用して、会社のデータカタログを外部データカタログとして保存します。

EMR to Hiveは、DMSいらん。

53 C. AWS Application Auto Scaling を使用して、ピーク使用時間にはプロビジョニングされた容量を高くスケジュールします。オフピーク時には容量を低くスケジュールします。

こいつで、dynamodbのスケーリングもできる。

52 glue catalogで、文脈的に、やりたいことが、メタデータの更新なので、こっち
B. Use the AWS Glue Data Catalog as the central metadata repository. Use AWS Glue crawlers to connect to multiple data stores and to update the Data Catalog with metadata changes. Schedule the crawlers to run periodically to update the metadata catalog.

51 A. ステートマシンを含む AWS Step Functions ワークフローを使用します。ステートマシンを設定して、Lambda 関数を実行してから AWS Glue ジョブを実行します。

簡単なオーケストレーションなので、step functionsか、gluework flow。
で、今回は、lambdaも使うから、lambdaを使うほうで、stepfunction

50 C. Amazon Redshift のクエリエディタ v2 を使用して、マテリアライズドビューを更新します。

クエリエディタv2はストアドプロシージャだけじゃなく、マテビューも扱える

49 データの一列のみ→S3 select

48 B. WHERE year = 2023 を WHERE extract(year FROM sales_data) = 2023 に変更します。

47 これがくせもの。なぜB. Amazon AppFlowか

あるメディア企業は、サードパーティのツールを使用してデータを収集するために、SaaS (Software as a Service) アプリケーションを使用しています。この企業は、データを Amazon S3 バケットに保存する必要があります。この企業は、Amazon Redshift を使用して、データに基づく分析を実行します。運用オーバーヘッド
が最も少なく、これらの要件を満たす AWS のサービスまたは機能はどれですか。

45 athena work group をつかってsparkをつかう

44 C. EC2 インスタンスストアボリュームによってサポートされる AMI を使用して、新しい EC2 インスタンスを起動します。アプリケーションデータを格納するために Amazon Elastic Block Store (Amazon EBS) ボリュームを接続します。EC2 インスタンスにデフォルト設定を適用します。

43 B. Step Functions ステートマシンコードに、EMR ジョブの作成と実行に必要なすべての IAM 権限があることを確認します。Step Functions ステートマシンコードに、EMR ジョブが使用する Amazon S3 バケットにアクセスするための IAM 権限も含まれていることを確認します。S3 のアクセスアナライザーを使用して、S3 アクセスプロパティを確認します。

D. VPC のフローログをクエリします。EMR クラスターから発信されたトラフィックがデータプロバイダーに正常に到達できるかどうかを判断します。Amazon EMR クラスターに接続されている可能性のあるセキュリティグループが、通知されたポート上のデータソースサーバーへの接続を許可しているかどうかを判断します。

42 B. STL_ALERT_EVENT_LOG
エリオプティマイザーがパフォーマンスの問題を示している可能性のある条件を識別したときに、Amazon Redshift でシステムテーブルを選択して異常を記録する必要

41 C. SQL クエリを使用して、必要なデータ要素を含む EC2 インスタンスベースの SQL Server データベースにビューを作成します。AWS Glue クローラーを作成して実行し、ビューを読み取ります。データを取得して Parquet 形式で S3 バケットに転送する AWS Glue ジョブを作成します。AWS Glue ジョブを毎日実行するようにスケジュールします。

38 C. 既存の gp2 ボリュームのボリュームタイプを gp3 に変更します。ボリュームサイズ、IOPS、スループットの新しい値を入力します。

EBS作り変えんでもボリュームチェンジできるんや。。。
無理なのは暗号化だ。

37 これムズイ。。
なぜapatch flinkでfirehoseではないか。

基本分析をlambdaにやらせるのは悪手、みたいなことなんかなあ

36 これもむずい。。。わからん。。。
A. AWS Glue パーティションインデックスを作成します。パーティションフィルタリングを有効にします。

C. S3 バケットプレフィックスに基づいて Athena パーティション投影を使用します。

35 わからん、、、、変更データキャプチャDMSはデータ分析では使わんぽいな。

C. オープンソースのデータレイク形式を使用して、データソースを S3 データレイクとマージし、新しいデータを挿入して既存のデータを更新します

34
D. セキュリティ AWS アカウントに宛先データストリームを作成します。IAM ロールと信頼ポリシーを作成し、CloudWatch Logs にストリームにデータを入れる権限を付与します。本番環境の AWS アカウントにサブスクリプションフィルターを作成します。

33 B. プロビジョニングされた同時実行性を備えた AWS Lambda Python 関数を作成します。

32
C. DB インスタンスが使用するのと同じサブネットで実行されるように Lambda 関数を設定します。
D. Lambda 関数と DB インスタンスに同じセキュリティグループをアタッチします。データベースポート経由のアクセスを許可する自己参照ルールを含めます。

31 C. Partition the data based on the most common query predicates.
これどういう意味や。。

29 step functionで並列実行は、pararell stateではなく、
C. Map state

28 A. S3 バケット内のデータをパーティションに分割します。データを年、月、日ごとに整理します。
B. ワーカータイプをスケールアップして AWS Glue インスタンスのサイズを増やします。

27 C. Amazon Redshift に外部スキーマを作成し、Kinesis Data Streams のデータを Amazon Redshift オブジェクトにマップします。ストリームからデータを読み取るためのマテリアライズドビューを作成します。マテリアライズドビューを自動更新に設定します。

26 B. Amazon S3 を永続的なデータストアとして使用します。
D. コアノードとタスクノードに Graviton インスタンスを使用します。

sparkって、ec2インスタンスをポッドみたいに使うんかな。

25 C. Amazon Athena フェデレーテッドクエリを使用して、すべてのデータソースからのデータを結合します。
複数のソースからのデータを結合する必要があります。データは、Amazon DynamoDB、Amazon RDS、Amazon Redshift、および Amazon S3 に保存されます。

federated queryで貫通する。

24 A. Redshift データ共有を使用して、営業チームの BI クラスターを ETL クラスターのコンシューマーとして設定します。

22 EMR含む時点でグルーワークフローは無理
B. AWS Step Functions タスク

21 B. AWS Glue Studio の Detect PII 変換を使用して PII を識別します。PII を難読化します。AWS Step Functions ステートマシンを使用してデータパイプラインを調整し、データを S3 データレイクに取り込みます。

これ、Cのクオリティ選ばないように！Glue studioでマスキングはできる。他と比較して理解を深める。

20 Apache Pig、Apache Oozie、Apache Spark、Apache Hbase、および Apache Flink を使用しています。オンプレミスのワークロードは、ペタバイト単位のデータを数秒で
→EMR
EMRすごいな。

19
A. AWS Lambda 関数と Athena Boto3 クライアントの start_query_execution API 呼び出しを使用して、Athena クエリをプログラムで呼び出します。

B. AWS Step Functions ワークフローを作成し、2 つの状態を追加します。最初の状態を Lambda 関数の前に追加します。2 番目の状態を待機状態として設定し、Athena Boto3 get_query_execution API 呼び出しを使用して、Athena クエリが終了したかどうかを定期的に確認します。現在のクエリの実行が終了したら次のクエリを呼び出すようにワークフローを設定します。

18 B. Redshift クラスターのワークロード管理 (WLM) キューレベルで同時実行スケーリングをオンにします。
わからん

17 A. ETL ジョブを 1 時間ごとに実行するように AWS Glue トリガーを設定します。

D. AWS Glue 接続を使用して、データソースと Amazon Redshift 間の接続を確立します。

16 ゆるくDMS使う感じ

14 B. Amazon Redshift Data API を使用して、Amazon EventBridge にイベントを発行します。Lambda 関数を呼び出すように EventBridge ルールを設定します。

13 B. AWSGlueServiceRole ポリシーを含む IAM ロールを作成します。ロールをクローラーに関連付けます。ソースデータの S3 バケットパスをクローラーのデータストアとして指定します。クローラーを実行する毎日のスケジュールを作成します。出力のデータベース名を指定します。

12 A. Amazon Managed Service for Apache Flink (旧称 Amazon Kinesis Data Analytics) を使用してセンサーデータを処理します。Apache Flink のコネクタを使用して、Amazon Timestream データベースにデータを書き込みます。Timestream データベースをソースとして使用して、Grafana ダッシュボードを作成します。

11 C. データ形式を .csv から Apache Parquet に変更します。Snappy 圧縮を適用します。

10 A. イベントタイプが s3:ObjectCreated:* である S3 イベント通知を作成します。フィルタルールを使用して、サフィックスに .csv が含まれている場合にのみ通知を生成します。Lambda 関数の Amazon リソースネーム (ARN) をイベント通知の送信先として設定します。

9 A. Glue ジョブのプロパティで FLEX 実行クラスを選択します。
特定の時間に実行または終了することを必要としません。

8 B. ユースケースごとに Athena ワークグループを作成します。ワークグループにタグを適用します。タグを使用してワークグループに適切な権限を適用する IAM ポリシーを作成します。

7
B. Amazon Redshift Data API を使用します。

6 B. カスタム Python スクリプトを Lambda レイヤーにパッケージ化します。Lambda レイヤーを Lambda 関数に適用します。

4
B. データストレージには Amazon S3 を使用します。データ分析には Amazon Athena を使用します。

E. AWS Lake Formation を使用して、集中的なデータガバナンスとアクセス制御を実現します。

3 A. API 呼び出しを使用して、AWS Data Exchange からサードパーティのデータセットにアクセスし、統合します。

3rd partyだけは、data exchangeがある。

1 D. VPC のルートテーブルに、Amazon S3 VPC ゲートウェイエンドポイントのインバウンドルートとアウトバウンドルートが含まれていることを確認します。

以上

終えました。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up