0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

AWSでデータ分析を始める前に知っておきたいこと

Posted at

はじめに

近年、企業は「データ駆動型経営」を目指す傾向が強まっています。つまり、感覚や経験ではなく、データに基づいて意思決定するという考え方です。
そのためには、膨大なデータを効率よく集め、管理し、分析する仕組みとしてAWSのサービスで考えてみたいと思います
クラウドを使う事で、手っ取り早くデータ分析に必要なサービスを利用出来ますので
改めてのAWSのメリットは以下と考えます

  • スケーラブル:必要な時に必要なだけリソースを使える
  • 多様なサービス:データ収集、加工、分析、可視化まで一気通貫
  • コスト最適化:使った分だけ課金される

データ分析の全体像

データ分析は大きく以下の流れです。

  • データを集める(ログ、CSV、APIなど)
  • データを保存する(データレイクやデータベース)
  • データを加工する(ETL処理)
  • データを分析する(SQL、機械学習)
  • 結果を可視化する(BIツール)

用語の補足

データレイク

RDBの様に整理されたデータでは無く、ローデータの様に何でもデータファイルを置いておける場所
Amazon S3 のイメージ。オブジェクトストレージ

  • 構造化データ(表形式のデータ)
  • 非構造化データ(画像、ログ、動画など)

AWSでよく使うデータ分析サービス

  • Amazon S3:データレイクの基盤
  • Amazon Redshift:データウェアハウス(大量の構造化データを高速分析)
  • Amazon Athena:S3上のデータをSQLで簡単に分析
  • AWS Glue:ETL(データの抽出・変換・ロード)
  • Lake Formation:データレイクのセキュリティ・権限管理

Redshiftを中心としたアーキテクチャのイメージ

image.png

まとめ

企業など(組織、社会)にて膨大なデータが生まれている。そのデータを分析する事でインサイトを求めるニーズが存在する
データ分析の流れとしては、データを集めて、保存、加工、分析、分析結果を見やすく表示する
AWSでもデータ分析サービスを提供している
まずは、「データレイク=S3」、「データウェアハウス=Redshift」と大雑把に概要を押さえたい

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?