0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

AWS S3 Athenaとは

Last updated at Posted at 2024-01-02

はじめに

クラウドサービスは全然知識がないのですが、AWSを使う機会があって調べてみましたので記事にします。
今までMicroSoft製品にどっぷり使ってきたので本当はAzureを勉強したかったのですが、AthenaでSQLを書いたりするのはAzureでも活用できるはず。そういった内容はアウトプットすべきと思い、投稿にします。

Amazon S3とは

Amazon Simple Storage Serviceの略
大量のデータを安価にセキュアに高い耐久性で保存するサービスです。

最近はデータレイクというキーワードも聞いたことがあるのですが、
データレイクは構造化データだけでなく非構造化データもクラウドで保存し、必要に応じて加工するという仕組みでAWSではS3上にデータレイクを構築するらしいです。

バケットとは

S3ではアップロードするファイルのことをオブジェクトと言うそうですが
オブジェクトをクラウドストレージにアップロードする際、まずはバケットを作成し、
そのバケットの中にオブジェクトをアップロードします。

特徴としてはバケットを作成する際にリージョンを指定する必要があります。

image.png

Microsoftサービスでは
S3に似たサービスとしてMicrosoftではAzure Blob Storageが該当します。

Amazon Athenaとは

AWS上のストレージにあるCSV、JSON、Parquetファイルなどをまとめて1つのテーブルと見立てクエリを発行してデータを抽出します。
要はデータを分析するサービスです。主にSQLを使う。

特徴は下記のとおり

  • Prestoというクエリエンジンで動く
  • クエリの並列実行も可能
  • パーティション(スキャンする対象を絞り込む)設定可能
  • クエリ実行時間は30分でタイムアウト

テーブルの作成は、create table文の他、GUIベースでも作れる
image.png

用語集

  • 構造化データ
    「列」と「行」の概念をもつデータ
  • 非構造化データ
    構造定義されていないデータ。データベース化不可のデータ。
  • リージョン
    クラウドサービスを利用する際のデータセンターの地理的な場所のこと。
    データセンターの位置がサービス利用者に近い方が、ネットワークの通信速度も速いため、利用場所に近いリージョンを選択するのが良い。
0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?