データ分析基礎
データレイク
AWSでは、規模にかかわらず、すべての構造化データと非構造データを保存できる一元化されたリボジトリと定義している。
特徴
- 格納できるデータ容量に制限がない
- 格納できるデータの形式に制限がない
- どこにどのようなデータが入っているか管理されているので、必要なデータを探し、取り出すことができる
データウェアハウス
AWSでは、十分な情報に基づく優れた意思決定を行うための、分析可能な情報のセントラルリポジトリと定義している
集約されたリレーションデータとしてデータを保持。
ETL(Extract-Transform-Load)
ETL:データウェアハウスを構築するために必要な前処理。
Extract(抽出)
データベースやデータレイクから、分析に必要なデータを抽出する処理。
分析に使わないデータは抽出しないことが大事。
分析に使わないデータを抽出する
- 変換処理やロード処理に不要な性能的、時間的コストがかかる
- データ分析者がデータの要・不要を選択する負担が発生
Transform(変換)
抽出データを変換する処理。
データ変換処理をサボると、分析に専念することができない。
データ単位を小さくすると、高速で分析しやすくなる。
Load(ロード)
変換されたデータを、データベースに格納する処理。
このデータベースをターゲットと呼ぶ。
ロード処理は、変換後の大量データを以下に早くターゲットに転送するかがポイントとなる。
可視化
BIツールやダッシュボートを使って、可視化。
データ分析で使用するAWSサービス
- Amazon S3
- AWS Glue
- Amazon Athena
- Amazon Redshift
- Amazon QuickSight
Amazon S3
データレイクとして生データをいれる
AWS Glue
データのETL処理を行うAWSのフルマネージドサービス。
機能
- クローラ
- データカタログ
- ジョブ
- トリガー
- ジョブフロー
クローラ
データソースやターゲットとなるS3バゲットやデータベースなどに自動的、定期的にアクセスし、ファイルやテーブルの定義情報を検索するプログラム。
データカタログ
収集したソース及ターゲットのデータ構造は一元管理する場所。
ジョブ
データソースからターゲットに、データをETL処理するための実行処理。
トリガー
丈夫を実行するきっかけとなるイベント定義。
ジョブフロー
複数のジョブやトリガーをチェーン上に繋いだセットを定義。
Amazon Athena
S3以上のファイルに対して標準SQLでアクセスができるようにするマネージドサービス。
Amazon Redshift
データウェアハウスを提供するサービス。
データを格納し、SQLで各種データ操作が行える。
Amazon QuickSight
AWSが提供するBIサービス。
各AWSサービスに格納されたデータにアクセスし、分析の画面を作成できる。
独自のメインメモリエンジンを持っている。そのため、高速な分析操作が可能。