LoginSignup
2

More than 5 years have passed since last update.

AWS re:Invent2018 新サービス Lake Formationとは?

Last updated at Posted at 2018-12-04

reInvent2018で発表された新サービスLake Formationのまとめ

Andy Jassy氏のKeynoteでも紹介され
数カ月要していたData Lakeの構築を、数日で実現できるサービス らしいです。

Glueのラッパー的な機能をもち、
S3をデータレイクとして、データのセキュリティや
さまざまなアナリティクス系サービス(EMR/Redshift/Athena/SageMaker/etc.)からの
アクセス制御をブラウザベースで統合管理できるもののようです。

lake3.png

データもユーザも増えて、それを利用するサービスも多様化してくると
そのセキュリティと権限管理がカオスになってきそうな点を
救ってくれるサービス

さらにそれ以外のデータレイク構築に必要な要素も有している模様。

以下は、reInvent2018のセッション
「Intro to AWS Lake Formation - Build a secure data lake」
を基にしたサマライズです

Data Lakeとは

全ての構造化・非構造化データを
スケールして格納可能な
中央リポジトリ
(S3)

lake1.png

データレイクを構築するには、
データの収集や加工、メタデータのカタログ化
さらにはデータに対するセキュリティポリシー・アクセス権限管理など
やることは盛沢山。

数カ月を要する作業。
※この領域をLake Formationがカバー

lake2.png

Data Lake構築のステップ

実際にそのステップをまとめるとこんなに沢山ある。。。

・find source
・create S3 location(bucket)
・configure access policy
・map table to S3 location
・ETL jobs to load and clean data
・create metadata access policies
・configure access from analytics services
・manage and monitor ETL jobs
・update metadata catalog as they changes
・update policies across services as users and permissions change
・manually maintain cleansing scripts
・create audit processes for compliance
・and more...

Lake Formationの機能概要

現時点(2018/12)ではまだPreviewですが、概要まとめ

lake4.png

・データインポート(S3)
・アクセス制御管理
・データカタログ(glue)
・データクローリング(glue)
・データプレパレーション

さらに、これらの設定・構築を容易にするblueprintも用意されている。

データプレパレーションは、AWSのもつ機械学習機能をベースで
重複排除などのデータ前処理ができるとのこと。

lake8.png

機能だけを見るとGlueとの違いが見えにくいですが
Lake Formationは、Glueをラップしたもので、
ベースはGlueがその機能を担っているようです。

lake7.png

セキュリティ管理・アクセス制御系では
単なるデータ単位だけでなく、テーブル単位・カラム単位での制御も可能。

lake9.png

監査用ダッシュボードもあるので
実運用上うれしい機能だと思います。

lake10.png

今後の発展

Session登壇者のRaful氏(Bigdata/DataLake GM)曰く、
初期段階では主にアクセス制御関連を中心とした統合ツールだが、以下のような拡張を考えてるとのこと

・データ検索性やユーザ間コラボレーション
・カタログの拡張(さまざまなビジネスメタデータ等も集約)
 例:セールス履歴、データオーナー/データスチュワード、データのセンシティビティ

lake11.png

費用

気になるLake Formationの価格は「無料」
連携サービスの利用料のみだそうです。

さいごに

Glueが発表されて2年、その他アナリティクス系サービスも増え
単体では非常に便利ながらそれらをどう組み合わせるか、
そしてどう効率的に運用するかが次の課題になってきてる印象ですが、
そのタイミングでこのような1つレイヤーが上の統合ツールが発表されたことは
これからマイグレーションを検討している企業や、
運用効率化の課題を持つ人にとってうれしい流れかと。

Glueの時もそうでしたが、構想はとてもすごい!と思います。
ただ、機能が段階的にカバーされるパターンの場合、
期待する状態にサービスが成熟するまで待つ必要があるかもしれませんが。

参考

Session:Intro to AWS Lake Formation - Build a secure data lake
https://www.youtube.com/watch?v=nsiLMqg654s

Keynote with Andy Jassy
https://www.youtube.com/watch?v=ZOIkOnW640A

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2