はじめに
クラウドサービスは全然知識がないのですが、AWSを使う機会があって調べてみましたので記事にします。
今までMicroSoft製品にどっぷり使ってきたので本当はAzureを勉強したかったのですが、AthenaでSQLを書いたりするのはAzureでも活用できるはず。そういった内容はアウトプットすべきと思い、投稿にします。
Amazon S3とは
Amazon Simple Storage Serviceの略
大量のデータを安価にセキュアに高い耐久性で保存するサービスです。
最近はデータレイクというキーワードも聞いたことがあるのですが、
データレイクは構造化データだけでなく非構造化データもクラウドで保存し、必要に応じて加工するという仕組みでAWSではS3上にデータレイクを構築するらしいです。
バケットとは
S3ではアップロードするファイルのことをオブジェクトと言うそうですが
オブジェクトをクラウドストレージにアップロードする際、まずはバケットを作成し、
そのバケットの中にオブジェクトをアップロードします。
特徴としてはバケットを作成する際にリージョンを指定する必要があります。
Microsoftサービスでは
S3に似たサービスとしてMicrosoftではAzure Blob Storageが該当します。
Amazon Athenaとは
AWS上のストレージにあるCSV、JSON、Parquetファイルなどをまとめて1つのテーブルと見立てクエリを発行してデータを抽出します。
要はデータを分析するサービスです。主にSQLを使う。
特徴は下記のとおり
- Prestoというクエリエンジンで動く
- クエリの並列実行も可能
- パーティション(スキャンする対象を絞り込む)設定可能
- クエリ実行時間は30分でタイムアウト
テーブルの作成は、create table文の他、GUIベースでも作れる
用語集
-
構造化データ
「列」と「行」の概念をもつデータ -
非構造化データ
構造定義されていないデータ。データベース化不可のデータ。 -
リージョン
クラウドサービスを利用する際のデータセンターの地理的な場所のこと。
データセンターの位置がサービス利用者に近い方が、ネットワークの通信速度も速いため、利用場所に近いリージョンを選択するのが良い。