背景・目的
先日、Announcing AWS Glue serverless Spark UI and observability metricsが、発表されました。
これにより、GlueでSparkUIで確認できるようになりました。
個人的には、待望の機能だったのでとても嬉しく、早速試してみました。
まとめ
- Spark UIがGlueに組み込まれました。
- CloudWatchメトリクスで詳細なメトリクスが確認できるようになりました。
実践
前提
データを用意
-
Redshiftのドキュメントに添付されているサンプルのデータセットtickitdb.zipをダウンロードします。
-
いくつかのファイルのうち、最も大きいサイズのlisting_pipe.txtを使用します。
$ head listings_pipe.txt 1|36861|7872|1850|10|182.00|1820.00|2008-01-24 06:43:29 2|16002|4806|1890|7|233.00|1631.00|2008-03-05 12:25:29 3|21461|4256|2131|2|182.00|364.00|2008-11-01 07:35:33 4|8117|4337|1970|8|38.00|304.00|2008-05-24 01:18:37 5|1616|8647|1963|4|175.00|700.00|2008-05-17 02:29:11 6|47402|8240|2053|18|77.00|1386.00|2008-08-15 02:08:13 7|36551|7801|2145|5|30.00|150.00|2008-11-15 09:38:15 8|11891|8036|2139|6|82.00|492.00|2008-11-09 05:07:30 9|691|554|2078|6|135.00|810.00|2008-09-09 08:03:36 10|24858|3375|1994|16|197.00|3152.00|2008-06-17 09:44:54 $
Spark UI とObservability metricsの確認
ジョブの作成
-
「Job details」をクリックします。
-
「Spark UI」と「Job observability metrics」を選択します。(デフォルトでチェック入っています。)
-
最後に「Save」をクリックします。
ジョブの実行
Spark UIの確認
Observability metricsの確認
-
CloudWatchのトップページに移動します。
-
オブサーバビリティメトリクスをクリックします。
-
任意のメトリクス、ジョブ名を選択します。
-
グラフ化したメトリクスを選択し、統計、期間などを選択します。確認できました。
考察
今回、リリースされたSpark UIとObservability metricsを触ってみました。Observability metricsについてはGlueのメトリクスよりも深く見れるので、とてもよいですね。これがGlueのUIで見れると嬉しいです。
また、SparkUIは、今までは、別途DockerコンテナやEC2などで環境を構築しなければならかったのですが、EMRと同様にUIに組み込まれて生産性が爆上がりです。とても嬉しいです。
参考