データ分析基礎

データレイク

AWSでは、規模にかかわらず、すべての構造化データと非構造データを保存できる一元化されたリボジトリと定義している。

特徴

格納できるデータ容量に制限がない
格納できるデータの形式に制限がない
どこにどのようなデータが入っているか管理されているので、必要なデータを探し、取り出すことができる

データウェアハウス

AWSでは、十分な情報に基づく優れた意思決定を行うための、分析可能な情報のセントラルリポジトリと定義している

集約されたリレーションデータとしてデータを保持。

ETL(Extract-Transform-Load)

ETL:データウェアハウスを構築するために必要な前処理。

Extract(抽出）

データベースやデータレイクから、分析に必要なデータを抽出する処理。
分析に使わないデータは抽出しないことが大事。

分析に使わないデータを抽出する

変換処理やロード処理に不要な性能的、時間的コストがかかる
データ分析者がデータの要・不要を選択する負担が発生

Transform(変換）

抽出データを変換する処理。

データ変換処理をサボると、分析に専念することができない。
データ単位を小さくすると、高速で分析しやすくなる。

Load(ロード）

変換されたデータを、データベースに格納する処理。
このデータベースをターゲットと呼ぶ。
ロード処理は、変換後の大量データを以下に早くターゲットに転送するかがポイントとなる。

可視化

BIツールやダッシュボートを使って、可視化。

データ分析で使用するAWSサービス

Amazon S3
AWS Glue
Amazon Athena
Amazon Redshift
Amazon QuickSight

Amazon S3

データレイクとして生データをいれる

AWS Glue

データのETL処理を行うAWSのフルマネージドサービス。

機能

クローラ
データカタログ
ジョブ
トリガー
ジョブフロー

クローラ

データソースやターゲットとなるS3バゲットやデータベースなどに自動的、定期的にアクセスし、ファイルやテーブルの定義情報を検索するプログラム。

データカタログ

収集したソース及ターゲットのデータ構造は一元管理する場所。

ジョブ

データソースからターゲットに、データをETL処理するための実行処理。

トリガー

丈夫を実行するきっかけとなるイベント定義。

ジョブフロー

複数のジョブやトリガーをチェーン上に繋いだセットを定義。

Amazon Athena

S3以上のファイルに対して標準SQLでアクセスができるようにするマネージドサービス。

Amazon Redshift

データウェアハウスを提供するサービス。
データを格納し、SQLで各種データ操作が行える。

Amazon QuickSight

AWSが提供するBIサービス。
各AWSサービスに格納されたデータにアクセスし、分析の画面を作成できる。
独自のメインメモリエンジンを持っている。そのため、高速な分析操作が可能。

参考資料

みんなのAWS

データ分析の基礎とデータ分析で使うAWSサービス