自分のための履歴
抜け漏れあるかもなので参考程度に
履歴
-
20170815:Glue GA
https://aws.amazon.com/jp/blogs/news/launch-aws-glue-now-generally-available/ -
20170929:Supports Filter and Map transforms
https://aws.amazon.com/jp/about-aws/whats-new/2017/09/aws-glue-now-supports-filter-and-map-transforms/ -
2017101x:ジョブ中断できる
-
2017102x:New map filter
http://docs.aws.amazon.com/ja_jp/glue/latest/dg/aws-glue-api-crawler-pyspark-transforms-filter.html -
20171024:CFn対応
https://aws.amazon.com/jp/about-aws/whats-new/2017/10/aws-glue-can-now-be-configured-using-aws-cloudformation-templates/ -
20171107:CloudTrail対応
https://aws.amazon.com/about-aws/whats-new/2017/11/aws-glue-api-calls-are-now-recorded-and-available-in-aws-cloudtrail/ -
20171223:東京リージョンリリース
https://aws.amazon.com/jp/about-aws/whats-new/2017/12/aws-glue-is-now-available-in-the-asia-pacific-tokyo-aws-region/ -
201801xx:View機能(Glue-Tablesの右上の"SaveView"があり検索条件を保存する機能)
-
20180112:Scalaリリース
https://aws.amazon.com/jp/blogs/big-data/aws-glue-now-supports-scala-scripts/ -
20180112:Trigerイベント追加
https://aws.amazon.com/jp/about-aws/whats-new/2018/01/aws-glue-now-supports-additional-job-events-as-trigger-conditions/ -
20180206:なんとGlueのメニューにWhat'sNewが追加されてた(20180206)
もうこのQiitaいらないんじゃw
-
20180411:Spark2.2サポート
https://aws.amazon.com/jp/about-aws/whats-new/2018/04/aws-glue-now-supports-apache-spark-221/ -
20180412:ジョブにタイムアウト値追加
https://aws.amazon.com/jp/about-aws/whats-new/2018/04/aws-glue-now-supports-timeout-values-for-etl-jobs/ -
20180418:ジョブに実行時間が秒単位に。オーバーヘッド時間が含まれないようになったっぽい(ジョブIDをクリックしたあとに出る時間はオーバヘッド時間が含まれている)
-
20180506:AWS Glueクローラー「MergeNewColumns」に新しい設定オプションを追加しました(クローラがテーブルメタデータの変更を検出すると、そのテーブルに新しい列が追加され、グループデータカタログの既存の既存メタデータは上書きされません。 新しい列は、ネストされたデータ型を含め、遭遇したときに追加されます。 しかし、既存の列は削除されず、その型は変更されません)
https://forums.aws.amazon.com/ann.jspa?annID=5696 -
20180525:JobのパラメータにDelay notification thresholdが追加(ジョブの遅延を指定した時間を超えると通知)
https://forums.aws.amazon.com/ann.jspa?annID=5770 -
20180711:DDBをデータソースとしてサポート
https://aws.amazon.com/jp/about-aws/whats-new/2018/07/aws-glue-now-supports-reading-from-amazon-dynamodb-tables/
対応記事:DynamoDBをデータソースにする -
20180714:Glue JobのCWメトリクスをサポート
https://aws.amazon.com/jp/about-aws/whats-new/2018/07/aws-glue-now-provides-additional-ETL-job-metrics/
対応記事:ETL ジョブの CloudWatch メトリクス確認 -
201807未明:Glue コンソールが日本語になってた
-
20180824頃:保管時のデータ暗号化サポート
https://aws.amazon.com/jp/about-aws/whats-new/2018/09/aws-glue-now-supports-data-encryption-at-rest/ -
20181008:GlueがSamemakerのJupyter notebookをサポート
https://aws.amazon.com/jp/about-aws/whats-new/2018/10/aws-glue-now-supports-connecting-amazon-sagemaker-notebooks-to-development-endpoints/
対応記事:Jupyter NotebookをGlueの開発で使う -
20181016:データカタログのリソースベースのポリシーとリソースレベルの権限をサポート
IAMユーザーごとに見えたり操作できるテーブルを制御できる
テーブルのクロスアカウントによるアクセス可能
https://aws.amazon.com/jp/about-aws/whats-new/2018/10/aws-glue-now-supports-resource-based-policies-and-resource-level-permissions-and-for-the-AWS-Glue-Data-Catalog/
対応記事:GlueやAthenaで見えるテーブルを制限する -
20181117:クロスアカウント、クロスリージョンのGlue Connection
https://aws.amazon.com/jp/blogs/big-data/create-cross-account-and-cross-region-aws-glue-connections/ -
20190116:Glue Catalogのデータベースとテーブルに変更があったときのCloudWatchイベントによる通知をサポート
https://docs.aws.amazon.com/glue/latest/dg/doc-history.html
対応記事:CloudWatchイベントのGlue関連対応 -
20190122:Python Shell
https://aws.amazon.com/jp/about-aws/whats-new/2019/01/introducing-python-shell-jobs-in-aws-glue/
対応記事:GlueのPython shell を使う -
20190205:Glue データカタログクライアント向けの Apache Hive メタストア用ソースコードがダウンロード可能に
https://aws.amazon.com/jp/about-aws/whats-new/2019/02/source-code-for-the-aws-glue-data-catalog-client-for-apache-hive-metatore-is-now-available-for-download/ -
20190315:AWS Glue enables running Apache Spark SQL queries
https://aws.amazon.com/jp/about-aws/whats-new/2019/03/aws-glue-enables-running-apache-spark-sql-queries/ -
20190321:リソースタグ
https://aws.amazon.com/jp/about-aws/whats-new/2019/03/aws-glue-now-supports-resource-tagging/ -
20190406:Glue Job WorkerType
https://aws.amazon.com/jp/about-aws/whats-new/2019/04/aws-glue-now-supports-additional-configuration-options-for-memory-intensive-jobs/ -
20190510:AWS Glue crawlers now support existing Data Catalog tables as sources
https://aws.amazon.com/about-aws/whats-new/2019/05/aws-glue-crawlers-now-support-existing-data-catalog-tables-as-sources/ -
20190529:AWS Glue now enables continuous logging for Spark ETL jobs
https://aws.amazon.com/jp/about-aws/whats-new/2019/05/aws-glue-now-enables-continuous-logging-for-spark-etl-jobs/
GlueのログがDriverログとExecutorログに分けて詳細に出せるようになりました -
20190604:GlueのVPCエンドポイント対応
https://aws.amazon.com/about-aws/whats-new/2019/06/aws_glue_now_provides_vpc_interface_endpoint/ -
20190606:python shellでpython3.6対応
https://aws.amazon.com/jp/about-aws/whats-new/2019/06/aws_glue_supportscripts/ -
20190621:worflow機能
https://aws.amazon.com/jp/about-aws/whats-new/2019/06/aws-glue-now-provides-workflows-to-orchestrate-etl-workloads/
ジョブとクローラーとのワークフローだけで良い時 -
20190726:Spark 2.4.3(Python 3)サポート
https://aws.amazon.com/jp/about-aws/whats-new/2019/07/aws-glue-now-supports-ability-to-run-etl-jobs-apache-spark-243-with-python-3/
Spark2.4、Python3で開発したい時 -
20190726:開発エンドポイントで大規模メモリのWorkerTypeオプションをサポート
https://aws.amazon.com/jp/about-aws/whats-new/2019/07/aws-glue-now-supports-additional-configuration-options-for-memory-intensive-jobs-submitted-through-deployment-endpoints/
開発エンドポイントで大きいメモリ使いたい時 -
20190727:BookmarkがparquetとORCに対応
https://aws.amazon.com/jp/about-aws/whats-new/2019/07/aws-glue-now-provides-ability-to-bookmark-parquet-and-orc-files-using-glue-etl-jobs/ -
20190807:Shared VPCでのGlue起動対応
https://aws.amazon.com/jp/about-aws/whats-new/2019/08/now-launch-aws-glue-amazon-emr-and-aws-aurora-serverless-clusters-in-shared-vpcs/ -
20190810:ML Transforms
https://aws.amazon.com/jp/about-aws/whats-new/2019/08/aws-glue-provides-findmatches-ml-transform-to-deduplicate/ -
20190829:AWS Glueは、Glueジョブ用のGlue ETLライブラリのバイナリをリリースします(Glue binary Maven 経由で使えるようになりました)
https://aws.amazon.com/jp/about-aws/whats-new/2019/08/aws-glue-releases-binaries-of-glue-etl-libraries-for-glue-jobs/ -
20190905:Excluding Amazon S3 Storage Classes(Gracierのストレージタイプとかを処理の対象外にする
https://docs.aws.amazon.com/ja_jp/glue/latest/dg/aws-glue-programming-etl-storage-classes.html -
20190920:SparkUI対応
https://aws.amazon.com/jp/about-aws/whats-new/2019/09/aws-glue-now-provides-apache-spark-ui-to-monitor-and-troubleshoot-glue-etl-jobs/ -
20190920:DevEndpointのSpark2.4, Python3 対応
https://aws.amazon.com/jp/about-aws/whats-new/2019/09/aws-glue-supports-ability-to-test-glue-etl-scripts-on-development-endpoints/ -
20190929:Glue の Python シェルジョブと依存関係のある wheel ファイルをサポート
https://aws.amazon.com/jp/about-aws/whats-new/2019/09/aws-glue-now-supports-wheel-files-as-dependencies-for-glue-python-shell-jobs/ -
20191012:Glue JDBC Connectionにカスタム証明書を使用する機能を提供します
https://aws.amazon.com/jp/about-aws/whats-new/2019/10/aws-glue-now-provides-ability-to-use-custom-certificates-for-jdbc-connections/ -
20191024:ジョブブックマークを巻き戻す機能
https://aws.amazon.com/jp/about-aws/whats-new/2019/10/aws-glue-provides-ability-to-rewind-job-bookmarks-spark-etl-jobs/ -
20191123:GlueのSpark2.4.3(v1)でFindMatch MLトランスフォームをサポートしました
https://aws.amazon.com/jp/about-aws/whats-new/2019/11/aws-glue-supports-findmatches-ml-transform-apache-spark/ -
20191126:独自のJDBCドライバーをGlue Spark ETLジョブに追加できるようになりました
https://aws.amazon.com/jp/about-aws/whats-new/2019/11/aws-glue-now-enables-you-to-bring-your-own-jdbc-drivers-to-your-glue-spark-etl-jobs/ -
20200116:GlueジョブからS3に出力と同時にクローラー実行したりadd partitionするオプション
https://docs.aws.amazon.com/ja_jp/glue/latest/dg/update-from-job.html -
20200117:SparkアプリケーションがS3のデータセットを操作するための新しい変換(パージ、移行、およびマージ)の追加
https://aws.amazon.com/jp/about-aws/whats-new/2020/01/aws-glue-adds-new-transforms-apache-spark-applications-datasets-amazon-s3/ -
20200404:AWS GlueがGlue Spark ETLジョブからパーティションを更新する機能をサポートするようになりました
https://aws.amazon.com/jp/about-aws/whats-new/2020/04/aws-glue-now-supports-the-ability-to-update-partitions-from-glue-spark-etl-jobs/ -
20200404:DocumentDB対応
https://aws.amazon.com/jp/about-aws/whats-new/2020/04/aws-glue-now-supports-reading-from-amazon-documentdb-and-mongodb-tables/ -
20200428:Streaming ETL対応
https://aws.amazon.com/jp/about-aws/whats-new/2020/04/aws-glue-now-supports-serverless-streaming-etl-jobs/ -
20200811:Glue v2
https://aws.amazon.com/jp/about-aws/whats-new/2020/08/aws-glue-version-2-featuring-10x-faster-job-start-times-1-minute-minimum-billing-duration/
GlueのVPC内リソースでの実行に10分待つことがあったが、1分くらいになりました。 -
20200813:Glue workflow stop & restart
https://aws.amazon.com/jp/about-aws/whats-new/2020/08/aws-glue-provides-ability-stop-restart-glue-workflows/ -
20200924:Glue Studio
https://aws.amazon.com/jp/about-aws/whats-new/2020/09/announcing-aws-glue-studio/ -
20201009:Glue Streaming ETLジョブは、スキーマの検出と進化をサポートします
https://aws.amazon.com/jp/about-aws/whats-new/2020/10/aws-glue-streaming-etl-jobs-support-schema-detection-and-evolution/ -
20201016:Glue Streaming で Avro サポート(これまでは JSON, CSV, Parquet, XML のみ対応)
https://aws.amazon.com/about-aws/whats-new/2020/10/aws-glue-streaming-etl-jobs-support-reading-records-in-apache-avro-format/ -
20201016:Glue Crawler が Document DB/mongo DB 対応
https://aws.amazon.com/about-aws/whats-new/2020/10/aws-glue-crawlers-support-amazon-documentdb-mongodb-compatibility-mongodb-collections/
その他
Glueの使い方まとめ
https://qiita.com/pioho07/items/32f76a16cbf49f9f712f