AWS
glue
lakeformation

AWS Summit - AWS Glue, AWS Lake Formation で実現するServerless Analystic


AWS Glue概要


  • マネジメントサーバレスETLサービス

  • 開発者、データサイエンティスト向けのサービス

  • 35+ 機能

  • データのカタログ化


    • Auto Glowing

    • Apache Hive Metastore互換

    • 分析サービスとの統合



  • サーバレスエンジン


    • Apache Spark

    • Python shell

    • Bach job

    • インテラクティグ?



  • Auto Scalation


    • Schedule




データディスカバリー


  • Performance


    • 1日9000万




サイエンス


  • Apache Spark


    • provision、管理不要

    • Auto Scaling

    • オンデマンド



  • Apache Spark Core: RDD

  • Data Frame


    • SparkSQL core data

    • SQLのような分析に適合



  • Dynamic Frame


    • Recored schema every data, 前列のスキーマ不要

    • 単一パスで多数のフローを実施する

    • Glue Parquet Writer

    • 標準Parquet Writer

    • Glue Parquet Writer

    • Performance

    • 構成, 10DPU, Apache Spark 2.


    • WorkLoad


      • JSON -> Parquet



    • DynamicFrame 78s

    • DataFrame 195s




AWS Glue実行モデル


  • Driver -> Multiple Executor

  • 連続敵なLogging

  • Remove Apache Spark log message filter out

  • Progressbar

  • Job Metric


    • base Apache Spark metrics

    • driver egze


      • 30s summary

      • real time cloudwatch





  • Memory monitoring


    • DataFrame many small file task, too more task, too many memory used

    • DynamicFrame auto group task by small file

    • worker types


      • default

      • G.1x

      • G.2x





  • Python shell


    • SQL base anaylice

    • middle size ML

    • Python 2.7 / 3.6 supported


      • boto3, awscli, numpy, scipy, pandas,... installed



    • spinup: under 20s

    • netword address supported.

    • size: 1DPU, 1/16 DPU



  • Python shell filtering


    • cost : 0.6$




auto scalition


  • event base


    • lambda



  • schedual event

  • entity


    • glue

    • job

    • trigger



  • event


    • schedule

    • event

    • extenal



  • control


    • ...

    • workflow feature



  • authoring DAG

  • workflow rerun

  • moniting


    • Updates



  • network


    • Reverse DNS support

    • VPC endpoint support for Glue



  • Job, trigger -> Resouce tagging


  • notifications


    • AWS Lake Formation



  • secure construction and manage



  • Sample of steps required


    • Find Resouces

    • Create S3 locations

    • Configure access policies

    • Map tables to Amazon S3 locations

    • ETL jobs

    • Create metadata access policies

    • Configure access from analytics services

    • Rinse and repeat for other

    • Manaul | Error | ??



  • Collecting and クレンジング


  • dataをセキュアに保管



  • Security


    • SQL style grant revoke permissions

    • EMR-Spark, Athena, Redshift, Glue




  • Collection


    • ML transforms for fuzzy record matching

    • Blueprints: Cloudtrail / ALB



  • Data discovery


  • Rap of Glue



  • コンプラインア


    • HIPAA BAA

    • ISO

    • PCI

    • ???