0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

S3とその管理 2

Last updated at Posted at 2020-03-02

続き

公式を読み続ける..

「データレイクとビッグデータの分析 - Amazon S3 でデータレイクを作成して、すぐに活用できるクエリ、分析、機械学習ツールを使用して貴重なインサイトを取得し、イノベーションを推進しましょう。データレイクが拡大してきたら、S3 Access Points を使用して、個々のアプリケーションまたはアプリケーションセットに個別のアクセス許可を設定すると、簡単にデータへのアクセスを設定できます。また、AWS Lake Formation を使用してデータレイクをすばやく作成し、セキュリティ、ガバナンス、監査のポリシーを一元的に定義および適用することもできます。このサービスでは、データベースと S3 リソースのデータを収集後、Amazon S3 の新しいデータレイクに移行して、機械学習アルゴリズムを使用し、そのデータを整理および分類します。AWS リソースはすべて、拡張するデータストアに対応するようにスケールアップできます。先行投資は不要です。」公式

要は、
AWSでデータレイクが扱える!
データ増えたらAccess Point設定してアクセス制御できる!
AWS Lake FormationはData Lakeのいろんな設定ができる!
Lake FormationではS3やデータベースのデータを機械学習で整理して、セキュリティやガバナンス、監査の管理が簡単にできる!

なるほど。
データレイクを掘り下げてみる。
「Amazon S3 に構築されたデータレイクでは、ネイティブの AWS のサービスを利用して、ビッグデータ分析、人工知能 (AI、Artificial Intelligence)、機械学習 (ML、Machine Learning)、ハイパフォーマンスコンピューティング (HPC)、ならびにメディアデータ処理を行うアプリケーションを実行し、非構造化データセットから洞察を得ることができます。Amazon FSx for Lustre を使用すると、HPC および ML アプリケーションを実現するファイルシステムを起動し、大きなメディアワークロードをデータレイクから直接処理することができます。Amazon パートナーネットワーク (APN、Amazon Partner Network) からの任意の分析、AI、ML、HPC アプリケーションを使えるという柔軟性もあります。Amazon S3 は幅広い機能をサポートしているので、IT マネージャー、ストレージ管理者、およびデータサイエンティストは、S3 データレイク全体で、アクセスポリシーを適用したり、大規模にオブジェクトを管理したり、アクティビティを監査したりすることができます。」公式

つまり、
データレイクはビッグデータや機械学習などでデータの分析情報を得ることができる!
構造化でないデータ群も機械学習で分析してくれる!
FSx for Lustreは、HPC、MLアプリケーションのファイルシステムを起動し、大きなメディアワークロードをデータレイクから直接処理できる。???
データサイエンティストがデータレイクを管理するときに使用できるツール!

???
HPC、ML.. 聞きなれないワードが出てきたぞ..
これらのファイルシステムでメディアワークロードをデータレイクから直接処理できる???mmm?

FSx for Lustreを掘り下げる..

「Amazon FSx for Lustre では、機械学習、ハイパフォーマンスコンピューティング (HPC)、ビデオ処理、財務モデリング、電子設計オートメーション (EDA) などのワークロードの高速処理用に最適化されたハイパフォーマンスファイルシステムが提供されます。これらのワークロードでは通常、データは高速でスケーラブルなファイルシステムインターフェイスを介して表示される必要があります。また、Amazon S3 などの長期のデータストアには保存されたデータセットがあるのが一般的です。
ハイパフォーマンスファイルシステムの操作は、通常、高度な専門知識と管理オーバーヘッドを必要とし、ストレージサーバーをプロビジョニングして複雑なパフォーマンスのパラメータを調整する必要があります。Amazon FSx を使用すると、データへのミリ秒未満のアクセスが提供され、1 秒につき数百ギガバイトのスループットと数百万 IOPS の速度でデータを読み書きできるファイルシステムを起動して実行できます。
Amazon FSx for Lustre は Amazon S3 とネイティブに連携し、ハイパフォーマンスファイルシステムを使用したクラウドデータセットの処理を簡単にします。S3 バケットとリンクさせると、FSx for Lustre ファイルシステムは S3 オブジェクトをファイルとして透過的に表示します。これにより結果を S3 に書き込むことができます。また、FSx for Lustre はスタンドアロンなハイパフォーマンスファイルシステムとしても使用でき、ワークロードをオンプレミスからクラウドにバーストすることができます。オンプレミスデータを FSx for Lustre ファイルシステムにコピーすることで、そのデータを AWS で実行しているコンピューティングインスタンスで高速処理することも可能です。Amazon FSx の料金は、使用したリソースに対してのみ発生します。最低料金や、ハードウェアやソフトウェアの先行投資費用および追加費用は不要です。」公式

要は、
HPC … ハイパフォーマンスコンピューティング
ML … 機械学習
FSx for LustreはHPC、MLなど大量のデータを処理する際に使われる、
ハイパフォーマンスファイルシステム!
MLやHPCでは通常高速で拡張性のあるファイルシステムが用いられる。
FSxでは高パフォーマンスのファイルシステムを実現。(なんかい言うねん)
ミリ秒未満のアクセス。
スタンドアロンなファイルシステムとしても機能。
オンプレからクラウドにバーストできる。
使用したリソースに対して課金。最低料金なし。

なるほど。
HPSはハイパフォコンピューティング、MSは機械学習、FSx for Lustreはハイパフォファイルシステムってことか。

AWS Lake Formationに戻る
「AWS Lake Formation は、安全なデータレイクを数日で簡単にセットアップできるサービスです。データレイクとは、キュレートされた安全な一元的リポジトリであり、すべてのデータが元の形式と分析用に処理された形式の両方で保存されます。データレイクを使用することにより、データのサイロ化が解消され、異なる種類の分析を組み合わせることが可能になります。このような分析から得られるインサイトは、ビジネス上の意思決定に大きく貢献します。
とはいえ、今日のデータレイクの設定や管理には、複雑で時間のかかる手作業のタスクが数多く必要となります。このようなタスクの例としては、各種ソースからのデータの読み込み、データフローのモニタリング、パーティションの設定、暗号化作業およびキー管理、移行に伴う作業の明確化およびモニタリング、列指向形式へのデータの再編成、アクセスコントロールに関する設定、冗長データの重複排除、連結レコードのマッチング、データセットへのアクセス許可付与、経時的なアクセス監査などが挙げられます。
Lake Formation を使用してデータを作成することは、データソースの定義と適用するデータアクセスとセキュリティポリシーを定義するのと同様に簡単です。Lake Formationは、データベースとオブジェクトストレージからデータを収集およびカタログ化し、データを新しい Amazon S3 データレイクに移動し、機械学習アルゴリズムを使用してデータをクリーンアップおよび分類し、機密データへのアクセスを保護します。これらのタスクが完了すると、ユーザーは、一元化されたデータカタログにアクセスできるようになります。この データカタログ は、利用可能なデータセットおよびその適切な使用方法を示すものです。ユーザーはその後、Apache Spark 向け Amazon Redshift、Amazon Athena、および (ベータ版) Amazon EMR などの分析や機械学習サービスのデータセットを利用します。Lake Formation は AWS Glue で使用可能な機能の上に構築されます。」

要は、
データレイクとは、リポジトリ。(ビッグデータ用)
ん?データのサイロ化ってなんだ?
データレイクを使って、データのマイニングを行える。
従来のデータレイク作成は何かといろんな作業が多く、面倒くさかったのだが、AWS Lake Formationを使えば、AWS側で機械学習を使用し、データを整理してくれる。(カタログ化)。
Redshift、 Athena、EMRを使ってデータ分析ができる。

Athenaってなんだったっけ..
前回の記事を読み返す。
「『すぐに活用できるクエリ (query-in-place) サービスを使用して、S3 オブジェクト (および AWS の他のデータセット) 全体で大きなデータ分析を実行します。Amazon Athena を使用して標準の SQL 式で S3 データを照会し、Amazon Redshift Spectrum を使用して AWS データウェアハウスおよび S3 リソースに格納されているデータを分析します。また、S3 Select を使用して、オブジェクト全体ではなくオブジェクトデータのサブセットを取得し、クエリのパフォーマンスを最大 400% 向上させることもできます。』公式

要は
クエリサービス(query-in-place)でデータ検索ができる。
Amazon AthenaとはS3のデータの分析ツール。
S3 Selectでデータをサブセット化してパフォーマンスを向上させる。」前回記事

そうだそうだ、
データ分析ツールのことだ。
Amazon Redshift SpectrumやS3 Selectを使用するんだったな。

OK、進もう。
S3の次の説明を読む。
「ハイブリッドクラウドストレージ - データセンターのフットプリントを削減し、AWS の革新的な機械学習と分析機能だけでなく、AWS のスケーリング、信頼性、耐久性を活用するために、オンプレミスアプリケーションと AWS Storage Gateway を使用する Amazon S3 をシームレスに接続します。また、AWS DataSync を使用することで、オンプレミスストレージと Amazon S3 の間のデータ転送を自動化することもできます。これにより、オープンソースツールの速度よりも最大 10 倍高速にデータを転送できます。ハイブリッドクラウドストレージ環境を有効にするもう1つの方法は、APN のゲートウェイプロバイダーと連携することです。AWS Transfer for SFTP (サードパーティーとの安全なファイル交換を可能にする完全マネージド型サービス) を使用して Amazon S3 間でファイルを直接転送することもできます。」公式
要は、
オンプレとS3は接続できる。
その際はStorage Gatewayを使用するS3と接続する。
AWS DataSyncだと普通のデータ転送ツールよりも10倍速くデータを転送できる。
後、APNのゲートウェイプロバイダと連携しても、
AWS Transfer for SFTP(AWSのファイル交換サービス)でもファイル転送ができる。

SFTP … SSH File Transfer Protocol

読み進める。
「クラウドネイティブなアプリケーションデータ - 費用効率に優れたモバイルおよびインターネットベースのアプリケーションを迅速に構築するには、AWS サービスと Amazon S3 を使用して本稼働用データを保存します。Amazon S3 を使用すると、好きなだけデータをアップロードし、どこからでもアクセスできるため、アプリケーションをすばやくデプロイし、多くのエンドユーザーを獲得できます。Amazon S3 にデータを保存すると、機械学習や分析の最新の AWS 開発者ツールやサービスにアクセスして、クラウドネイティブアプリケーションを革新化および最適化できるようになります。」公式

要は、S3でアプリケーションのデータ管理が簡単にできる!
ビッグデータの解析もできる!つまり便利!

終わり

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?