勉強前のイメージ
athenaは先輩が前使ってたなー
S3のログファイルにクエリ投げて分析できる奴だった気がする。
RedShiftってデータウェアハウスっていうDBの一種だよな?
spectrumってなんだ・・・
結論
どちらも保存データに対してクエリ処理を実行できるツールもしくはサービス。
以下の点で違いがある
■データレイク(S3)に対するクエリ処理 → athena
■データウェアハウス(RedShift)に対するクエリ処理 → RedShift spectrum
じゃあデータレイク/データウェアハウス/データベースの違いって何?
データレイク
・取得データの加工は一旦考えない
・形式がバラバラな大量のデータを保存したい
(データの分析は後々に回したい)
→このときの「加工せず色々な形式の大量のデータを保存する場所」のことを データレイク という。
保存データはJSONのような整えられたデータだったり、画像・動画のような非構造化データだったりする。
データの形式を気にしないので
・異なる形式のデータを格納可能
・スケーリングが容易なストレージサービスを使うことが多く保存コストは低い
・データ保存時はデータの整形を行わない、保存後の利用時にスキーマを定義してクエリ処理を実行するのでクエリパフォーマンスは低い(スキーマオンリードという)
データウェアハウス
・データは抽出・変換・ロードしてから保存したい
・データ分析に特化したDBを構築したい、保存データをもとにBIを実施したい
→このときに保存する場所を データウェアハウス という。
データレイクと対になるもので、
・データ保存前にETL処理を実行するのでスキーマオンライト方式
・保存データに対するクエリ処理は高い
データベース
・トランザクション処理を実行したい
・日常業務のデータ管理
・高速な読み書きがしたい
・データの整合性を重視
→データベース
例として、
ECサイトの注文管理、銀行口座の取引、顧客管理システム等に適している。