はじめに
AWSでは、最近Dataエンジニアリングの認定があります。
データサイエンス及び機械学習で使用するビックデータに対して、主に下記の取り扱いを行うデータエンジニアリングの体系的な知識体系を身に着けるものです。
- データ収集
- ストレージ管理/データ蓄積
- ETL処理
- データ可視化/分析
- データガバナンス
試験の全体的な傾向としては、データレイクとしてのS3のサービス利用を主軸に置いた知識体系の試験という印象を受けました。
試験の中で、自身で振り返っておきたいサービスがいくつかあったので備忘として記載しておきます。
1. ストレージ S3 Lenz
Amazon S3(Simple Storage Service) は、AWSのオブジェクトストレージサービス。
S3 LenzはAWSが提供するS3の監視・可視化ツールで、ストレージの使用状況やアクセスパターンを分析できる。
S3のコスト最適化やパフォーマンスの調査に役立つ。
2. Apache Flink 旧 Analytics
Apache Flinkは、ストリームデータ処理のための分散処理エンジン。
以前はAWSのKinesis Data Analytics(KDA)で使われていたが、現在はAmazon Managed Service for Apache Flinkにリブランド。リアルタイム分析やデータの変換・集計に活用される。
3. EKSからDynamoDBへの認証
EKS(Elastic Kubernetes Service) は、AWSのマネージドKubernetesサービス。
EKSのPodがDynamoDBにアクセスするには、**IAMロール(IRSA: IAM Roles for Service Accounts)**を利用する。KubernetesのサービスアカウントにIAMロールを紐づけ、DynamoDBのアクセス権を適用する。
4. 別リージョン間のEFSのコピー
EFS(Elastic File System) は、AWSのマネージドNFSストレージ。
別リージョンへコピーする方法:
AWS DataSyncを利用してEFS間のデータ転送を自動化。rsyncコマンドを使い、EC2経由で手動コピー。EFSリプリケーションを設定し、継続的な同期を実施。
最後に
筆者の目線で断片的に、振り返っておきたい項目を書き出しています。。
データレイクとしてはS3,クエリエンジンとしてAthena、データウェアハウスのサービスとしてはredshiftなどがメインされていました。データレイクとしてのS3の存在感が強く、AWSとしてもS3としてサービスを展開しているのだなぁと感じました。