LoginSignup
0
0

More than 1 year has passed since last update.

AWS EBS,EFS,S3,Glacier,Storage Gateway

Last updated at Posted at 2021-05-21

AWS 3つのストレージサービス

・ブロックストレージ

ーEC2にアタッチして活用するディスクサービス
ー高速・広帯域幅
ーEBS、インスタンスストア

・オブジェクトストレージ

ー安価かつ高い耐久性を持つオンラインストレージ
ーオブジェクtp形式でデータを保存
ーS3、Glacier

・ファイルストレージ

ー複数のEC2インスタンスから同時にアタッチ可能
ーファイル形式でデータ保存
ーEFS

EBS ブロックストレージ

ブロックストレージサービスで、EC2のOS領域、EC2の追加ボリューム、RDSのデータ保存領域などに使用する。基本的にEC2に対して1対1に対応するサービス。同一のAZ内で複数のEC2にはEBSマルチアタッチ機能でできるが、制約も多く限定的な用途になる。EBSのスナップショット(バックアップ)を取得することで、EBSボリュームを作成しAZ指定を行える。

【EBSの特徴】

・99.999%の可用性
・EC2インスタンスは他のAZ内のEBSにアクセスできない。同じAZ内のみ。
・同じAZ内であれば付け替えは可能。
・1つのEBSに複数のインスタンスで共有することはできない。プロビジョンドIOPSのみ共有は可能。
・スナップショットは、リージョン間を跨いでの利用も可能。
・別アカウントでもスナップショットの権限を変更することで、別のアカウントに移譲も可能。
・EBSはスナップショットを利用してバックアップを取得可能。スナップショットからEBSを復元する際は別AZにも可能。スナップショットはS3に保存される。スナップショットは2世代以降は増分データを保存する増分バックアップとなる。スナップショット作成時はブロックレベルで圧縮して保管するため、圧縮後の容量に対して課金が行われる。作成時でもEBSは利用可能。

・インスタンスストアとEBS

・インスタンスストア

ーホストコンピュータに内蔵されたディスクでEC2と不可分のブロックレベルの物理ストレージ
ーEC2の一時的なデータ保持が可能で、EC2の停止・終了されるとデータが削除される。
ー無料

・EBS

ーネットワークで接続されたブロックレベルのストレージでEC2と独立管理される
ーEC2を狩猟してもEBSデータは保持可能
ーSnapshotをS3に保持可能
ー別途EBS料金が発生する

SSDタイプ/HDDタイプ 4種類

・汎用SSD
ーデフォルトで設定されている。

・プロビジョンドIOPS SSD
ーEBSの中でも最も高性能なSSDをベースとしたボリュームタイプ。
ー高いI/O性能に依存するNoSQLやアプリ
ー10,000IOPSや160MB/s超えのワークロード大規模DB
ー複数のEC2インスタンスにアタッチ可能

・スループット最適化HDD
ーログデータに対する処理やバッチ処理のインプット用ファイルなど、大容量ファイルを高速に読み取るようなユースケースに適している。
ーDWH

・Clod HDD
ー最も低コストなボリュームタイプ。あまり利用頻度がなければ適している。
ーログデータなどアクセス頻度が低いデータ

EBSの拡張と変更の注意点

EBSボリュームに対して変更作業をおこなった場合、同一のEBSボリュームの変更作業は6時間以上あける必要がある。ディスク容量が不足したら必要に応じてサイズを何度でも拡張できるが縮小はできない。
一時的なデータ量の増加などに対しては、新規EBSを作成してアタッチを行い、不要になったらデタッチして削除する。

EBSのRAID構成

【RAID0】
パフォーマンス向上、複数のディスクを1台のディスクのように扱い読み書きを高速化する。ストライピングと呼ぶ。複数のストレージ(外部記憶装置)をまとめて一台の装置のように管理するRAID技術の方式(RAIDレベル)の一つで、複数の装置に均等にデータを振り分け、並行して同時に記録することで読み書きを高速化することができます。

【RAID1】
ボリュームの冗長性を高める。2つのボリュームを同時にミラーリングする。ミラーリング構成することで、冗長性、および耐障害性を提供することができますが、性能は向上しません。

1つのボリュームが故障したとしてもすぐにデータを利用できることが求めらている場合、EBSによりRAID1構成を実施することができます。2つ以上のEBSボリューム間でミラーリングすることで回復性が高いデータ冗長化を達成することが可能です。これにより、EBSボリュームにおいて不具合や破損が発生してもデータ消失しないようにデータ保持することができます。

既存EBSボリュームを暗号化するために、以下の順で作業を実施します

  1. 既存EBSボリュームのスナップショットを取得
  2. 取得したスナップショットを、[EBS暗号化] を有効化しコピー
  3. コピーしたスナップショット(暗号化済み)から EBS ボリュームを作成
  4. EC2インスタンスから既存EBSボリュームをデタッチする
  5. EC2インスタンスに作成した EBSボリューム(暗号化済み)をアタッチする

EBSのスナップショット取得のライフサイクルポリシーを設定

Amazon Data Lifecycle Manager (Amazon DLM)を使用するとEBSのバックアップであるスナップショットの作成、保存、削除を自動化できます。 定時バックアップをスケジュールして貴重なデータを保護します。

DLMを利用することで次のような設定が可能となります。
■EBSの定期的なバックアップスケジュールを実施して貴重なデータを保護する。
■監査担当者または社内のコンプライアンスが必要とするバックアップを保持する。
■古いバックアップを削除してストレージコストを削減する。

新規でEBSを作成後、すぐに使用開始するには

新規に作成したEBSボリュームをEC2インスタンスにアタッチ後にEBS使用を開始するためは、そのボリュームにファイルシステムを作成することが必要です。
インスタンスにEBSボリュームをアタッチ後に任意のファイルシステムでボリュームをフォーマットしてからマウントすることが必要です。 EBSボリュームを使用可能にした後、他のボリュームにアクセスするのと同じ方法でEBSボリュームにアクセスできます。 このファイルシステムに書き込まれたデータはすべてEBSボリュームに書き込まれます。

EFS ファイルストレージ

容量無制限で複数のEC2インスタンスから同時にアクセスが可能なファイルストレージサービスで、NFSクライアントさえあれば特別なツールはをインストールしたり設定したりする必要はありません。
フルマネージド型でシンプル、ファイリの追加/削除に合わせた拡張/縮小が柔軟、容量・性能がスケーラブル、複数のAZへ保存・複数のAZからの同時読み書きできる高耐久性・高可用性。

EFSのパフォーマンスモード

・汎用パフォーマンスモード
基本はこのパフォーマンスを使用すれば問題ない。

・最大I/Oパフォーマンスモード
数百〜数千台といったクライアントから同時にEFSへアクセスがある場合。

パフォーマンスモードは後から変更できないため、導入前によく検討しなければならない

EFSのスループットモード

バーストスループットモード
一時的なスループットの上昇にも耐えられるようなバースト機能。
EFSでは突然アクセスが増加するケースにはバーストスループットモードを選択します。バーストスループットモードではスループットがファイルシステムのサイズに合わせてスケールされ、ファイルベースの多数のワークロードの不規則な性質に対応するために、必要に応じて動的にバーストされます。これによって、EFSは一時的な高負荷に対応できるパフォーマンスを発揮することができます。

プロビジョニングスループットモード
パーストスループットモードで設定されているベースラインスループットを大幅に上回る場合や、一時的なバースト時にバーストスループットで定められているスループットよりも高い性能が必要な場合、任意のスループット値を指定できる。

どちらのスループットモードを選択すればいいかは、CloudWatchのBurstCreditBalanceを参考にする。クレジットバランスを全て使い切ったり、常に減少方向であればプロビジョニングスループットを選択する。

EFS ライフサイクル管理を有効

EFS は標準ストレージクラスと低頻度アクセスストレージクラス (EFS IA) という2つのストレージクラスを利用しています。EFS IA は、毎日アクセスしないファイルに対して最適化されたコスト効率の料金/パフォーマンスを提供します。ファイルシステムで EFS ライフサイクル管理を有効にするだけで、選択したライフサイクルポリシーに従ってアクセスしないファイルは、自動的かつ透過的に EFS IA に移されます。EFS IA ストレージクラスの費用は、たったの 0.025 USD/GB月です。

汎用モードが最小レイテンシー

EFS は、幅広いワークロードに対応するために必要なスループット、IOPS、および低レイテンシーを提供できるように設計されており、汎用と最大 I/O の 2 種類のパフォーマンスモードを提供します。汎用モードは、ファイルシステムオペレーション単位で最小レイテンシーを実現するだけでなく、ランダムまたはシーケンシャル IO パターンでも同じ結果を得ることができます。したがって、最小レイテンシーを実現するためには汎用モードを選択することが必要です。 

最大 I/O モードのファイルシステムは、
ファイルオペレーションのレイテンシーがわずかに長くなる代わりに、スループットが高性能にスケールできます。 

Amazon FSx for Windows

ファイルサーバー  はファイルシステム当たり最大 2 GB/秒のスループット、数百万の IOPS、一貫したミリ秒未満のレイテンシーという高速パフォーマンスが実現可能な高性能なストレージです。Amazon FSx for Windows ファイルサーバー はDFS 名前空間を使用することで、数百ペタバイトのデータ全体で、最大で毎秒数十ギガバイトのスループットに数百万の IOPS まで、パフォーマンスをスケールアップできます。

DataSync

オンプレミスストレージとEFS間でデータを迅速かつ簡単に移動することができるマネージド型のデータ転送サービスです。

S3 オブジェクトストレージ

容量無制限のオブジェクトストレージサービス。アーキテクチャの中核を担うサービスです。ファイルが置かれたことをトリガーに後続の処理が動いたり、他のシステムとのファイル連携に利用したり、サーバーのログの定期的な退避先に使用されたりします。他のサービスと一緒に使用されるパターンを問われます。

データの追加や更新が行われればその直後から必ず追加後や更新後の状態が取得できるようになる「強い一貫性」がサポートされている。

【特徴】

ーファイルの破損する恐れがほぼない!!
ー99.999999999%の耐久性
ー料金がやすい
ー容量を気にしない
ー他サービスとの連携が可能

・データ保存形式

・バケット
オブジェクトの保存場所。AWSアカウントにてデフォルト100個まで作成可能。名前はグローバルでユニークであること。同じ名前だとエラーが起きる。

・オブジェクト
データ本体。S3に格納されるファイルでURLが付与される。

・データサイズ
データサイズは0KB〜5TB

・S3のオブジェクト構成

 ーキー・・・オブジェクトの格納URLパス。
 ーバリュー・・・データそのものであり、バイト値で構成される
 ーメタデータ・・・オブジェクトに付随する属性の情報。
 ーサブリソース・・・バケット構成情報を保存及び管理するためのサポートを提供
 ーリージョン・・・バケットを配置するAWSのロケーション。

例

     |     バケット名   |        オブジェクトのキー名   |
S3://ExampleAWSbucket/Logistics/packing-list.pdf
                     |         |   オブジェクト名   |
                   プレフィックス(Prefix)

S3の用途に応じてストレージタイプ 

RRS以外は耐久性99.999999999%
ーStandard・・・複数個書にデータを複製するため耐久性が非常に高い
ーStandardーIA・・・Standardに比べて安価。データの読み出し容量に応じて課金。
ーOne Zone-IA・・・アクセス頻度は低いが、必要に応じてすぐに取り出すデータ向け
ーRRS・・・非推奨
ーAmazon Glacier・・・最安のアーカイブ用ストレージ。アクセスや更新が発生しない場合はS3よりもGlacierにデータを保存します。GlacierはS3よりもコストが低いため長期保存データに向いています。データ抽出にコストと時間を要する(3時間〜5時間)。迅速読取を利用することで1分~5分ほどでデータを取得することができます。ライフサイクルマネジメントの指定。ボールロック機能でデータを保持。最低保持期間は90日。

S3 Intelligent-Tiering

低頻度アクセスのオブジェクトを自動的に低頻度アクセス層に移動する事でコストを削減する。

保存するデータが予測不能なアクセスパターンを持っている場合は、S3 Intelligent-Tieringを利用することでストレージのコスト最適化を自動化することができます。 S3 Intelligent-Tieringには、高頻度と低頻度という2つのアクセス階層が組み込まれています。両階層はStandard(標準)ストレージクラスと同等の低レイテンシーを提供します。S3 Intelligent-Tiering はアクセスパターンをモニタリングして、連続30日間アクセスされていないデータを低頻度のアクセス階層に移動します。その後、そのデータがアクセスされた場合は、高頻度アクセス階層に自動的に戻されます。すなわち、アクセスパターンが変化するような状況でも、性能の影響なく利用料金を節約することができます。 

データがあまりアクセスされないとほぼ確信している場合には、コスト節約の観点では、Standard-IA(標準-低頻度アクセス)の利用が最適となります。

S3のアクセス管理

S3のアクセス管理は用途に応じて方式を使い分ける。

・IAMポリシー
IAMユーザー/サービスに対してS3サービスへのアクセス権限を設定する事ができる。一元的にユーザーへのアクセス権限を管理

・パケットポリシー
バケットへのアクセス権限をJSONで設定。他アカウントへの許可も可能。バケット単位の高度なアクセス管理むけ。

・ACL
バケットと「個々のオブジェクト」へのアクセス権限をXMLで設定する。他アカウントへの許可も可能。簡易的にアクセス管理向け。

・署名付きURL
AWS SDKで生成した署名付きURLでS3のオブジェクトへの一定時間アクセスを許可。
作成したユーザーがオブジェクトへのアクセス許可を有している場合、他のユーザーがその事前署名付き URL を使用して対象オブジェクトにアクセスすることができます。この機能を利用することで、アプリケーションが対象イメージへの期限付きでのアクセス許可を特定のユーザーに付与することが可能です。

S3の暗号化 4つの形式

・SSE-S3
S3の標準暗号化方式で簡易に利用可能。暗号キーの作成・管理をS3側で自動で実施。ブロック暗号の1つである256ビットのAdvandced Encryption Standard(AES-256)を使用してデータを暗号化。

・SSE-KMS
AWS KMSに設定した暗号キーを利用した暗号化を実施。ユーザー側でAWS KMSを利用して暗号化キーを作成して、管理する事が可能。クライアント独自の暗号キーを利用可能。

・SSE-C
ユーザーが指定したキーによるサーバー側の暗号化(SSE-C)を使用する事が可能。利用設定や管理が煩雑になるのがデメリット。

・クライアントサイド暗号化(CSE)
クライアント側の暗号化では、S3に送信する前にデータを暗号化する方式。AWS KMSなどを利用して暗号化キーを作成・実施。アプリケーション内に保存したマスターキーを使用。

S3アクセスアナライザー

アクセスポリシーにそっているかを確認し、不正なアクセスが発生していないか、アクセスポリシーを監視する機能

ーIAMアクセスアナライザーに連動したS3向けの機能。
ーバケットポリシー/ACLのモニタリング。
ーバケットまたは共有バケットアクセスを検出。
ーバケットポリシー、バケットACL、または両方。バケットアクセスのソースを検索して確認する場合、この列の情報を使用して、迅速で正確な是正措置を実行する。
ー全てのパブリックバケットと共有バケットの結果を表示する。
ーバケットの実際のアクセス状況を確認する。

ライフサイクル管理

S3に保存されたオブジェクトはその利用頻度に応じてライフサイクルを定義できる
ー移行アクション
データの利用頻度に応じてストレージクラスを変更するアクション。

ー有効期限アクション
指定された期限を指定して、安価な保存場所に移動させるか削除する。

クロスリージョンレプリケーション

リージョン間を跨ぐクロスリージョンレプリケーションにより耐障害生を高める。

バケットに対するオブジェクト作成・更新・削除などのデータ処理のイベントをトリガーとしてレプリ ケーションが実行されます。クロスリージョンレプリケーション は、異なる AWS リージョンにある2つのバケット間でオブジェクトを自動的に非同期にコピーする機能です
クロスリージョンレプリケーションを利用するためにはバージョニングが有効化されている必要があります。

【トリガー】
バケットに対するオブジェクト作成・構成・削除をトリガーにレプリケーションを実行する。

設定方法
ーバージョニング機能を有効にする。
ーバケットは格別リージョンを指定。
ー双方向レプリケーションも可能。
ーデータ転送費用が発生。

VPCエンドポイント

リージョン内のポイントであるため、リージョン外からはアクセスできません。エンドポイントを使用するには、使用されるリージョンに S3 クロスリージョンレプリケーションによってS3オブジェクトをコピーする必要があります。これによって、対象リージョンにS3オブジェクトをレプリケーションすることで、そのリージョンに対するVPCエンドポイントによるアクセスを構成します。

バージョン管理

ユーザーによる誤操作でデータ削除などが発生してもバージョンから復元できる。

設定方法
バケットをバージョン管理する。
バージョン保管されたオブジェクトを参照可能。
ライフサイクル管理によって保存する期間の指定も可能。
バケット削除時に古いバージョンの別途削除が必要。

S3データの解析 

S3内のデータ検索。解析には用途に応じて複数サービスがある。
データを別の分析システムに移動することなく、直接にS3データに対して高度なビッグデータ分析を実行できます。

【S3 Select(Glacier Select)】

S3の内部機能として有している検索機能で、S3内で直接クエリを実行し、データを取得できる。GZIP圧縮データやCSVやJSONに対して実行可能。

【Amazon Athena】

S3内のデータを直接、簡単に分析できるようにするインタラクティブなクエリサービス。
Athena SQLクエリでSageMaker機械学習モデルを呼び出し、機械学習による推論も実行可能。

【Amazon Macie】

機械学習によりS3の機密データを検出、分類、保護する、フルマネージド型サービス。
機密データ検出調査を実施する。

【Amazon Redshift Spectrum】

S3の格納データに対して、AmazonRedshiftから直接クエリを実行できる機能。
Redshiftクラスターが起動されている前提であるため、Redshiftを利用している場合におすすめ。

AWS Storage Gateway 「S3の外部接続」

標準的なストレージプロトコルを利用して外部システム環境とAWSのストレージサービスと接続するサービス。

利用するデータタイプに応じて3つのゲートウェイを利用する。
ファイルゲートウェイ・ボリュームゲートウェイ・テープゲートウェイ

メリット

ー標準的なストレージプロトコルを活用したシームレスな統合
ーキャッシュを活用した低レイテンシなアクセスが可能
ーAWSストレージサービスの堅牢性・低コスト・拡張性
ー効率的なデータ転送
ーAWSのモニタリング・管理。セキュリティとの統合

用途

ーデータ移転や保存などAWSストレージを利用したい場合
ービックデータ処理/クラウドバースティング/システム移行のためデータをAWSストレージに移動させたいケース。
ーバックアップ・アーカイブ。災害対策としてAWSにデータを保持
ーオンプレミス環境で容易にAWSストレージを活用

・ファイルゲートウェイ
オンプレミスのファイルデータをAWS Strage Gateway経由でS3上のオブジェクトに格納

・ボリュームゲートウェイ
S3及EBS snapshotをバックエンドとしたブロックストレージ

・テープゲートウェイ
S3とGlacierにデータを保管する仮想テープストレージとVTL管理

S3アクセスポイント

S3 の共有データセットへの大規模なデータアクセスの管理を簡素化する機能です。アクセスポイントは、バケットにアタッチされた名前付きのネットワークエンドポイントで、S3 オブジェクトのオペレーション (GetObject や PutObject など) を実行するために使用できます。各アクセスポイントは基になるバケットにアタッチされたバケットポリシーと連動して機能するカスタマイズされたアクセスポイントポリシーを適用してアクセスを制御することが可能です。

S3エンドポイント

プライベートサブネット内からS3にアクセスする機能

S3のデータ保護

ガバナンスモードとコンプライアンスモードがある。

ーガバナンスモード
特別なアクセス権限を持たない限り、オブジェクトの上履き、削除、ロック設定ができない。

ーコンプライアンスモード
制約が強く、指定された保存期間中は、AWSアカウントのルートユーザーを含め誰もオブジェクトの上履き、削除、ロック設定はできない

S3 Transfer Acceleration

クライアントとS3バケットの間で、高速、簡単、安全にファイルを長距離転送できる。この機能はcloudFrontの世界中に分散したエッジロケーションを利用しています。エッジロケーションに届いたデータは、最適化されたネットワークパスでS3にルーティングされる。これによりグローバルに効果的なファイルを転送できる。

Cross-Origin Resource Sharing(CORS)

他のドメインへのS3リソースの共有が可能となります。CORSは特定のドメインにロードされたクライアントウェブアプリケーションが異なるドメイン内のリソースと通信する方法を定義します。

プレフィックスを利用して日付ベースでアップロード

S3 は、プレフィックスを利用して日付ベースでアップロードを分散することで少なくとも 3,500 リクエスト/秒、データの取得で 5,500 リクエスト /秒をサポートできるようにパフォーマンスを自動的に向上させることができます。

マルチパートアップロード

API を使用して大容量オブジェクトをいくつかに分けてアップロードすることができます。
この API では、新しい大容量オブジェクトをアップロードしたり、既存オブジェクトのコピーを作成したりできます

Storage Gateway

キャッシュ型ボリュームを使用すると、頻繁にアクセスされるデータをローカル環境に保持しながら、S3をプライマリデータストレージとして使用できます。

オンプレミスアプリケーションによる AWS クラウドストレージのシームレスな使用を可能にするハイブリッドストレージサービスです。このサービスを使用して、バックアップ、アーカイブ、災害対策、クラウドデータ処理、ストレージの階層化、および移行を行うことができます。このサービスは、データセンターおよび支部、またはリモートオフィスのストレージインフラストラクチャを削減して簡素化します。お使いのアプリケーションは、NFS、SMB、iSCSI などの標準ストレージプロトコルを使用して、仮想マシンまたはハードウェアゲートウェイアプライアンス経由でサービスに接続されます。

保管型ボリュームを使用すると、プライマリデータをローカルに保存する一方で、そのデータを非同期に AWS にバックアップします。保管型ボリュームを使用することにより、オンプレミスのアプリケーションがそのデータセット全体に低レイテンシーでアクセスできます。同時に、耐久性のあるオフサイトのバックアップが提供されます。ストレージボリュームを作成し、それを iSCSI デバイスとしてオンプレミスのアプリケーションサーバーからマウントできます。保管型ボリュームに書き込まれたデータは、オンプレミスのストレージハードウェアに保管されます。このデータは Amazon Elastic Block Store (Amazon EBS) スナップショットとして Amazon S3 に非同期でバックアップされます。

S3バケットから配信するコンテンツへのアクセスを制限する

CloudFrontの 署名付き URL または署名付き Cookie を作成してオブジェクトURLの閲覧権限を特定ユーザーに限定します。また、オリジンアクセスアイデンティティ (OAI) という特別な CloudFront ユーザーを作成してS3バケットへの直接的なアクセスを制限します。これにより、ユーザーは S3 バケットへの直接 URL を使用してファイルにアクセスすることはできなくなり、CloudFront を通じて提供するファイルへの安全なアクセスを維持することが可能となります。

パブリックの設定には2つある

S3バケットの公開に対する制御はACLまたはバケットポリシーにより実行します。

S3アクセスコントロールリスト (ACL) では、
バケットとオブジェクトへのアクセスを管理できます。ACLにより、アクセスが許可される AWS アカウントまたはグループとアクセスの種類が定義されます。リソースに対するリクエストを受信すると、S3 は該当する ACL を調べて、必要なアクセス許可がリクエスタにあることを確認します。

バケットポリシーは、バケットに対してユーザーアクセス権限を設定するバケットに関するポリシーです。オブジェクト単位でのアクセス権限のコントロールにはACLを利用します。

S3に関わるサービス

AWS Backup

AWS Storage Gateway を使用して、オンプレミスおよび AWS サービス全体のデータのバックアップの一元化と自動化を簡単に実行できる、完全マネージド型のバックアップサービスです。バックアップポリシーを一元的に設定し、Amazon EBS ボリューム、Amazon RDS データベース、Amazon DynamoDB テーブル、Amazon EFS ファイルシステム、AWS Storage Gateway ボリュームなどの AWS リソースのバックアップアクティビティを監視できます。

QuickShight

Redshift、S3、Athena、Aurora、RDS、IAM、CloudTrail、Cloud Directory などの AWS サービスと連携してBIツールとして分析を実施できます。DynamoDBに直接利用できません。 

EMR

Apache HadoopやApache SparkなどのビッグデータフレームワークをAWS上で実行して大量のデータを処理および分析プロセスを構築できるプラットフォームです。 Amazon EMRを使用して、Amazon S3やAmazon DynamoDBなどの他のAWSデータストアやデータベースとの間で大量のデータを変換や解析することができます。よって、S3にある大量のログファイルを処理して、分析するのに最適なサービスです。

EMR は大規模環境で大量のデータを迅速かつコスト効率よく処理できるビッグデータ処理用のプラットフォームです。Apache Spark、Apache Hive、Apache HBase、Apache Flink、Presto などのオープンソースのツールと、Amazon EC2 の動的なスケーラビリティおよび Amazon S3 によるスケーラブルなストレージを組み合わせて伸縮自在なデータ処理・分析エンジンを提供します。ペタバイト規模の分析が従来のオンプレミスクラスターと比べてわずかなコストで実行できます。主なユースケースは次の通りです。
・MACHINE LEARNING
・抽出、変換、読み込み (ETL)
・クリックストリーム分析
・リアルタイムストリーミング データ処理
・インタラクティブ分析
・ゲノミクス

Athena

SQLを使用してAmazon S3のデータを対話的に分析することができます。Athenaはサーバーレスのサービスであり利用者がサーバを管理する必要はありません。利用料金はクエリ実行に対してのみ課金されます

Lake Formation

S3を利用したデータレイク構成を容易に実施することができます。Lake Formationはデータベースとオブジェクトストレージからデータを収集およびカタログ化して、データをS3データレイクに移動して保存することができます。そして、機械学習アルゴリズムを使用してデータをクリーンアップおよび分類し、機密データへのアクセスを保護します。これらのタスクが完了すると、ユーザーは、一元化されたデータカタログにアクセスできるようになります。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0