0
0

AWS RedShift spectrum と Athenaの違い

Posted at

勉強前のイメージ

athenaは先輩が前使ってたなー
S3のログファイルにクエリ投げて分析できる奴だった気がする。
RedShiftってデータウェアハウスっていうDBの一種だよな?
spectrumってなんだ・・・

結論

どちらも保存データに対してクエリ処理を実行できるツールもしくはサービス。
以下の点で違いがある
■データレイク(S3)に対するクエリ処理 → athena
■データウェアハウス(RedShift)に対するクエリ処理 → RedShift spectrum

じゃあデータレイク/データウェアハウス/データベースの違いって何?

データレイク

・取得データの加工は一旦考えない
・形式がバラバラな大量のデータを保存したい
(データの分析は後々に回したい)
→このときの「加工せず色々な形式の大量のデータを保存する場所」のことを データレイク という。

保存データはJSONのような整えられたデータだったり、画像・動画のような非構造化データだったりする。
データの形式を気にしないので
・異なる形式のデータを格納可能
・スケーリングが容易なストレージサービスを使うことが多く保存コストは低い
・データ保存時はデータの整形を行わない、保存後の利用時にスキーマを定義してクエリ処理を実行するのでクエリパフォーマンスは低い(スキーマオンリードという)

データウェアハウス

・データは抽出・変換・ロードしてから保存したい
・データ分析に特化したDBを構築したい、保存データをもとにBIを実施したい
→このときに保存する場所を データウェアハウス という。

データレイクと対になるもので、
・データ保存前にETL処理を実行するのでスキーマオンライト方式
・保存データに対するクエリ処理は高い

データベース

・トランザクション処理を実行したい
・日常業務のデータ管理
・高速な読み書きがしたい
・データの整合性を重視
→データベース

例として、
ECサイトの注文管理、銀行口座の取引、顧客管理システム等に適している。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0