0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

【データ分析基盤】AWSデータエンジニアリング試験の振り返りについて

Posted at

はじめに

AWSでは、最近Dataエンジニアリングの認定があります。

データサイエンス及び機械学習で使用するビックデータに対して、主に下記の取り扱いを行うデータエンジニアリングの体系的な知識体系を身に着けるものです。

  • データ収集
  • ストレージ管理/データ蓄積
  • ETL処理
  • データ可視化/分析
  • データガバナンス

試験の全体的な傾向としては、データレイクとしてのS3のサービス利用を主軸に置いた知識体系の試験という印象を受けました。
試験の中で、自身で振り返っておきたいサービスがいくつかあったので備忘として記載しておきます。

1. ストレージ S3 Lenz

Amazon S3(Simple Storage Service) は、AWSのオブジェクトストレージサービス。
S3 LenzはAWSが提供するS3の監視・可視化ツールで、ストレージの使用状況やアクセスパターンを分析できる。
S3のコスト最適化やパフォーマンスの調査に役立つ。

2. Apache Flink 旧 Analytics

Apache Flinkは、ストリームデータ処理のための分散処理エンジン。
以前はAWSのKinesis Data Analytics(KDA)で使われていたが、現在はAmazon Managed Service for Apache Flinkにリブランド。リアルタイム分析やデータの変換・集計に活用される。

3. EKSからDynamoDBへの認証

EKS(Elastic Kubernetes Service) は、AWSのマネージドKubernetesサービス。
EKSのPodがDynamoDBにアクセスするには、**IAMロール(IRSA: IAM Roles for Service Accounts)**を利用する。KubernetesのサービスアカウントにIAMロールを紐づけ、DynamoDBのアクセス権を適用する。

4. 別リージョン間のEFSのコピー

EFS(Elastic File System) は、AWSのマネージドNFSストレージ。
別リージョンへコピーする方法:
AWS DataSyncを利用してEFS間のデータ転送を自動化。rsyncコマンドを使い、EC2経由で手動コピー。EFSリプリケーションを設定し、継続的な同期を実施。

最後に

筆者の目線で断片的に、振り返っておきたい項目を書き出しています。。
データレイクとしてはS3,クエリエンジンとしてAthena、データウェアハウスのサービスとしてはredshiftなどがメインされていました。データレイクとしてのS3の存在感が強く、AWSとしてもS3としてサービスを展開しているのだなぁと感じました。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?