はじめに
Glue ETLジョブの監視を行う際にどのようにすれば良いのかをまとめていこうと思います。
監視方法
結論
監視といえど、様々な観点での監視があると思います。
今回は、ジョブ自体の動作として正常終了したのか、異常終了したのかを監視する時の方法を述べます。
結論は、CloudWatch Eventや、EventBridgeを使用した監視で実現できます。
Glue ETLジョブのエラーは、CloudWatchイベントとして送信され、これを検知して通知を行うことができます。
参考: ドキュメント
なので、CloudWatchイベントのルールを作成し、イベントパターンで絞り、awsでマネージドされているGlue ETLジョブの結果を指定し、CloudWatchイベントのtargetでイベントを検知した際に検知を通知するようなやり方をすれば良いということになります。
実際にどのようなGlue ETLジョブの結果が返ってくるのかというと下記のようなものを得られます。
この結果は、ジョブが実行に失敗した時のものです。
なので、イベントパターンを指定する際には、「"detail-type":"Glue Job State Change"」, 「"severity":"ERROR"」もしくは、「"state":"FAILED"」で絞ることで、ジョブの実行に失敗した時に検知した結果を通知する、といったことができます。
{
"version":"0",
"id":"abcdef01-1234-5678-9abc-def012345678",
"detail-type":"Glue Job State Change",
"source":"aws.glue",
"account":"123456789012",
"time":"2017-09-07T06:02:03Z",
"region":"us-west-2",
"resources":[],
"detail":{
"jobName":"MyJob",
"severity":"ERROR",
"state":"FAILED",
"jobRunId":"jr_0123456789abcdef0123456789abcdef0123456789abcdef0123456789abcdef",
"message":"JobName:MyJob and JobRunId:jr_0123456789abcdef0123456789abcdef0123456789abcdef0123456789abcdef failed to execute with exception Role arn:aws:iam::123456789012:role/Glue_Role should be given assume role permissions for Glue Service."
}
}
他の観点での監視
- チューニングの目安になるような、例えば、CPUの負荷率をみたり、メモリの使用量などを監視したい時については、CloudWatchメトリクスで取れる項目を基に監視を行うことがいいと思います。
- 下記に、チューニングの目安として選択するのに良さそうなメトリクスの項目と説明を記載しておきます。
注意点
ただ、ここで気を付けなければならないことがあります。
現在(2021/02/04 時点)において、Glue ETLジョブのtypeである、「python shell」typeのジョブに関しては、「Spark」typeのジョブのようなメトリクスを出力する機能がありません。
glueのメトリクス説明
メトリクス名 | 説明 |
---|---|
glue.driver.aggregate.bytesRead | 実行されている完了したSparkタスクによってすべてのデータソースから読み取られたバイト数。 有効な統計はsum。 sparkタスクの最後に更新される。 |
glue.driver.aggregate.elapsedTime | ミリ秒単位のETL経過時間。 有効な統計はsum。 ジョブの実行に平均してかかる時間を決定するために使用できる。 |
glue.driver.aggregate.numCompletedStages | ジョブで完了したステージ数。 有効な統計はsum。 |
glue.driver.aggregate.numCompletedTasks | ジョブで完了したタスク数。 有効な統計はsum。 |
glue.driver.aggregate.numFailedTasks | 失敗したタスク数。 有効な統計はsum。 監視により分かるもの ・ジョブタスクの失敗の原因となるデータの異常。 ・ジョブタスクの失敗の原因となるクラスターの異常。 ・ジョブタスクの失敗を引き起こすスクリプトの異常。 |
glue.driver.aggregate.numKilledTasks | 強制終了したタスク数。 有効な統計はsum。 監視により分かるもの ・タスクを強制終了する例外, メモリ不足状態(OOM)が発生するデータスキューの異常。 ・タスクを強制終了する例外, メモリ不足状態(OOM)を発生させるスクリプトの異常。 |
glue.driver.aggregate.recordsRead | 全てのexecutorsで実行されている完了した全てのSparkタスクの全てのデータリソースから読みこまれたレコード数。 有効な統計はsum。 sparkタスクの最後に更新される。 |
glue.driver.aggregate.shuffleBytesWritten | 前回のレポート以降で、データをシャッフル(大規模な結合、groupBy、再パーティション化、合体)するためにずべてのexecutorsによって書き込まれたバイト数。 有効な統計はsum。 |
glue.driver.aggregate.shuffleLocalBytesRead | 前回のレポート以降で、データをシャッフル(大規模な結合、groupBy、再パーティション化、合体)するためにずべてのexecutorsによって読み込まれたバイト数。 有効な統計はsum。 |
glue.driver.BlockManager.disk.diskSpaceUsed_MB | 全てのexecutorsで、使用されるディスク領域の平均メガバイト数。 有効な統計はAverage。 監視により分かるもの ・キャッシュされたRDDパーティションを表すブロックに使用されるディスク容量。 ・中間シャッフル出力を表すブロックに使用されるディスク容量。 ・ブロードキャストを表すブロックに使用されるディスク容量。 |
glue.driver.ExecutorAllocationManager.executors.numberAllExecutors | アクティブに実行されているジョブexecutorsの数。 有効な統計はAverage。 |
glue.driver.ExecutorAllocationManager.executors.numberMaxNeededExecutors | 現在の負荷を満たすために必要な最大(アクティブに実行中および保留中)のジョブエグゼキュータの数 有効な統計はsum。 |
glue.driver.jvm.heap.usage | ドライバー(スケール:0-1)のJVMヒープがドライバーに使用するメモリーの平均割合。(スケール:0-1)のパーセンテージ表示。 有効な統計はAverage。 ドライバのメモリ不足状態(OOM)を特定できる。 |
glue.ALL.jvm.heap.usage | すべてのエグゼキュータについて、このドライバ(スケール:0-1)のJVMヒープによって使用されるメモリの平均割合。(スケール:0-1)のパーセンテージ表示。 有効な統計はAverage。 エグゼキュータのメモリ不足状態(OOM)を特定できる。 |
glue.driver.jvm.heap.used | ドライバーのJVMヒープによって使用されるメモリバイト数。 有効な統計はAverage。 ドライバーのメモリ不足状態(OOM)を特定できる。 |
glue.ALL.jvm.heap.used | すべてのエグゼキュータのJVMヒープによって使用されるメモリバイト数。 有効な統計はAverage。 エグゼキュータのメモリ不足状態(OOM)を特定できる。 |
glue.driver.s3.filesystem.write_bytes | 前回のレポートから、ドライバーによってAmazonS3に書き込まれた平均バイト数。 有効な統計はsum。 監視により分かるもの ・ジョブの問題(データの処理、再処理、およびスキップ)。 ・外部データソースからの読み取りと取り込み率の比較。 ・ジョブ実行間の差異。 |
glue.ALL.s3.filesystem.write_bytes | 前回のレポートから、すべてのエグゼキュータによってAmazonS3に書き込まれた平均バイト数。 有効な統計はsum。 監視により分かるもの ・ジョブの問題(データの処理、再処理、およびスキップ)。 ・外部データソースからの読み取りと取り込み率の比較。 ・ジョブ実行間の差異。 |
glue.driver.system.cpuSystemLoad | ドライバーによって使用されるCPUシステム負荷の平均割合。(スケール:0-1)のパーセンテージ表示 有効な統計はAverage。 ドライバーのCPU負荷。 |
glue.ALL.system.cpuSystemLoad | すべてのエグゼキュータによって使用されるCPUシステム負荷の平均割合。(スケール:0-1)のパーセンテージ表示。 有効な統計はAverage。 エグゼキュータのCPU負荷。 |
glueのメトリクスに出てくる用語の説明
ステージ
- Sparkのアプリケーションは全体的なデータ処理をステージと呼ばれるいくつかのフェーズに分割して実行する。
- 1つのジョブは、複数のステージから構成される可能性がある。
- ステージの生成は、スクリプトの内容に応じて自動的に行われる。
タスク
- Sparkのデータ処理においては、ステージがさらに複数のタスクに分割される。
- なので、1つのステージには1つ以上のタスクが存在することになる。
- 1つ1つのタスクは、分散処理における最小の処理単位となり、例えば複数のファイルを処理する場合は、個々のファイルの処理が1つのタスクになる場合がある。
executors
- Executorは、分散処理を実際に実行するプロセス。
- Sparkのジョブでは、上述の通り1つのジョブは複数のステージから構成され、個々のステージには複数のタスクが存在しますが、この最小の処理単位であるタスクを実際に実行するプロセスがExecutorとなる。
- Executorの数は、データを並列処理できるプロセスの数に該当し、Glueジョブの最大キャパシティやワーカー数を大きく設定するほど、Executorの数が増加する関係となる。