More than 5 years have passed since last update.

AWS試験対策（⑫分析サービス）

Posted at 2020-02-24

分析サービス編です。RedshiftはDBでやったんで省略します。

分析のためのサービス概要

流れとしては、AWS SnowballやKinesisでデータを収集し、S3に保存。その後EMRやData PipelineやGlueで抽出/加工し、RedshiftやAthenaで分析する。それをQuickSightで可視化するっていった流れ。

AmazonKinesisの各種サービス

よっつある。Kinesis Data Streams、Kinesis Data Firehose、Kinesis Data Analytics、Kinesis Video Streamsの四つ。データを大量に保存する機能はS3やEMRにもあるが、これらはIOの処理能力が低いのでKinesisを使う。

Kinesis Data Streams
数千、数万のデバイスから継続的に生成されるデータ(ストリーミングデータ)を収集するサービス。
アプリケーションはここからデータをリアルタイムに取り出て分析処理を行う。
Kinesis Data Firehose
S3/Redhift/Elasticsearch Service/Splunkにストリーミングデータをロードする機能を持つ。
こいつらに受け渡したいときはFirehoseを使おう！
Kinesis Data Analytics
ストリーミングデータに対して標準的なSQlクエリを行って分析できるサービス。
要するにデータをほかのDBなどに受け渡さなくてもいいため、リアルタイム分析ができる。
Kinesis Video Streams
アプリで動画を解析する際に使う。例えば防犯カメラのデータを取り込んで犯罪防止の解析に使ったり。

まとめると、アプリに渡し、リアルタイムな分析をしたいときはData Streams、S3/Redshift/Elasticsearch Service/splunkへ渡したいときはFirehose、DB的な使い方をしたいけどDBへ渡さずにリアルタイムな分析をしたいならAnalytics、動画ならVideo Streams。

EMR

Hadoopのマネージドサービス。といっても当方Hadoopを知らんので簡単にまとめ。
大量のデータを処理する分散処理フレームワークであり、様々な非構造化/構造化データをデータウェアハウスや機械学習のアプリが使用できる構造に変換するサービス。要するにデータの変換をしてくれる？
従量課金制。

Data Pipeline

AWSサービスやオンプレのサービスのデータソースについてデータの転送とかETL(抽出、変換、格納の略)を定義し、処理を自動化できるサービス。これだけだと何言ってるかわからないが、要するに、WebサーバからS3へ毎日ログを送り、それを週一でEMRに変換してもらって、それを解析に使用する場合、それらの流れをスケジューリングして自動的に行ってくれる。

Glue

ETLとデータカタログのマネージドサービス。S3に保存されたデータをRedshiftで使用できる形に変換する。スクリプトをPythonまたはScalaで自動生成できる。Apache Spark以外の様々なエンジンで実行されるETL処理が必要な場合はPipelineのほうがいい。Apache Spark専用か。

Athena

S3のデータに対してテーブルを作り、標準的なSQLを直接発行できるサービス。従来はS3のデータをRedshiftへロードしてからクエリ発行していたが、それが不要になった。
Kinesis Data Analyticsと違うのはS3からのデータってこと。

QuickSighht

BIツール。AWS以外にも接続できるらしい。よーわからん。

あとは移行とコスト管理のサービスをやってよくある質問読んで模試受けて本番へ行こうかと。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up