Help us understand the problem. What is going on with this article?

AWS re:Invent2018 新サービス Lake Formationとは?

More than 1 year has passed since last update.

reInvent2018で発表された新サービスLake Formationのまとめ

Andy Jassy氏のKeynoteでも紹介され
数カ月要していたData Lakeの構築を、数日で実現できるサービス らしいです。

Glueのラッパー的な機能をもち、
S3をデータレイクとして、データのセキュリティや
さまざまなアナリティクス系サービス(EMR/Redshift/Athena/SageMaker/etc.)からの
アクセス制御をブラウザベースで統合管理できるもののようです。

lake3.png

データもユーザも増えて、それを利用するサービスも多様化してくると
そのセキュリティと権限管理がカオスになってきそうな点を
救ってくれるサービス

さらにそれ以外のデータレイク構築に必要な要素も有している模様。

以下は、reInvent2018のセッション
「Intro to AWS Lake Formation - Build a secure data lake」
を基にしたサマライズです

Data Lakeとは

全ての構造化・非構造化データを
スケールして格納可能な
中央リポジトリ
(S3)

lake1.png

データレイクを構築するには、
データの収集や加工、メタデータのカタログ化
さらにはデータに対するセキュリティポリシー・アクセス権限管理など
やることは盛沢山。

数カ月を要する作業。
※この領域をLake Formationがカバー

lake2.png

Data Lake構築のステップ

実際にそのステップをまとめるとこんなに沢山ある。。。

・find source
・create S3 location(bucket)
・configure access policy
・map table to S3 location
・ETL jobs to load and clean data
・create metadata access policies
・configure access from analytics services
・manage and monitor ETL jobs
・update metadata catalog as they changes
・update policies across services as users and permissions change
・manually maintain cleansing scripts
・create audit processes for compliance
・and more...

Lake Formationの機能概要

現時点(2018/12)ではまだPreviewですが、概要まとめ

lake4.png

・データインポート(S3)
・アクセス制御管理
・データカタログ(glue)
・データクローリング(glue)
・データプレパレーション

さらに、これらの設定・構築を容易にするblueprintも用意されている。

データプレパレーションは、AWSのもつ機械学習機能をベースで
重複排除などのデータ前処理ができるとのこと。

lake8.png

機能だけを見るとGlueとの違いが見えにくいですが
Lake Formationは、Glueをラップしたもので、
ベースはGlueがその機能を担っているようです。

lake7.png

セキュリティ管理・アクセス制御系では
単なるデータ単位だけでなく、テーブル単位・カラム単位での制御も可能。

lake9.png

監査用ダッシュボードもあるので
実運用上うれしい機能だと思います。

lake10.png

今後の発展

Session登壇者のRaful氏(Bigdata/DataLake GM)曰く、
初期段階では主にアクセス制御関連を中心とした統合ツールだが、以下のような拡張を考えてるとのこと

・データ検索性やユーザ間コラボレーション
・カタログの拡張(さまざまなビジネスメタデータ等も集約)
 例:セールス履歴、データオーナー/データスチュワード、データのセンシティビティ

lake11.png

費用

気になるLake Formationの価格は「無料」
連携サービスの利用料のみだそうです。

さいごに

Glueが発表されて2年、その他アナリティクス系サービスも増え
単体では非常に便利ながらそれらをどう組み合わせるか、
そしてどう効率的に運用するかが次の課題になってきてる印象ですが、
そのタイミングでこのような1つレイヤーが上の統合ツールが発表されたことは
これからマイグレーションを検討している企業や、
運用効率化の課題を持つ人にとってうれしい流れかと。

Glueの時もそうでしたが、構想はとてもすごい!と思います。
ただ、機能が段階的にカバーされるパターンの場合、
期待する状態にサービスが成熟するまで待つ必要があるかもしれませんが。

参考

Session:Intro to AWS Lake Formation - Build a secure data lake
https://www.youtube.com/watch?v=nsiLMqg654s

Keynote with Andy Jassy
https://www.youtube.com/watch?v=ZOIkOnW640A

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
Comments
No comments
Sign up for free and join this conversation.
If you already have a Qiita account
Why do not you register as a user and use Qiita more conveniently?
You need to log in to use this function. Qiita can be used more conveniently after logging in.
You seem to be reading articles frequently this month. Qiita can be used more conveniently after logging in.
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
ユーザーは見つかりませんでした