扱う内容
・Kinesis
・EMR
・Glue
・Athena
・Data Pipeline
EMRの基礎知識
・ビッグデータの分析や処理を行うサービス
・ビッグデータ処理用のフレームワークであるHadoopやSparkを用いている
・3つのノードを持ち、分散処理を行う
・データの保存先にはHDFSとEMRFSいうファイルシステムを利用する。HDFSはEMRクラスター終了時にデータが吹っ飛ぶが、EMRFSはデータが永遠に保存される
Glueの基礎知識
・複数のデータソース(S3やDynamoDB)からデータを抽出し、変換・統合したデータをターゲット(Redshiftやオンプレミスなど)に渡すという、データ分析における橋渡しの役割を果たす
・クローラーがデータソースからデータを抽出し、まとまりであるデータカタログを作成する
・データカタログを基に、ETLエンジンがデータソースからデータを抽出し、ターゲットに渡す
・データカタログは。EMRやAthenaなどの分析サービスからも参照できる
Athenaの基礎知識
・サーバーレスである
・あらかじめCSVやJSONなどのデータを基にテーブルを作成することで、クエリを実行できるようになる
Data Pipelineの基礎知識
S3からDynamoDBへのデータ取り込みなど、データの移動や変換を自動化するサービス
EC2インスタンスを移動して使うので、サーバーレスではない