目的
ECSサービスのスケーリングポリシーでは最小タスクに0
をセットすることが出来ます。
例えば、日中のみ利用するサービスで、深夜帯の負荷がない時はタスクを全て停止し、必要な時だけ起動してコストを抑える、といったユースケースに対応するためと考えていました。
しかし、ターゲットの追跡ポリシーで実際に設定すると、タスクが1つになるまでスケールインしますが、最後のタスクはスケールインの条件を満たしているにも関わらず、残り続けてしまいます。
何故このような挙動になるのか、調査してみました。
結果
1.ECSサービスメトリクスを「ALBRequestCountPerTarget」にする
根本的な原因は、タスク「0」へのスケールインに”実際の0の値”が必要という点です。
When a metric emits real 0 values to CloudWatch (for example, ALBRequestCountPerTarget), Application Auto Scaling can scale in to 0 when there is no traffic to your application for a sustained period of time.
メトリックスから実際の 0 の値 CloudWatch (などALBRequestCountPerTarget)が出力される場合、アプリケーションへのトラフィックが一定時間ないときに、Application Auto Scaling は 0 にスケールインできます。
つまり、タスク「0」へのスケールインは設定された閾値を下回るだけでなく、 メトリクスの計測値が一定期間「0」である ことが条件となります。
そのため、メトリクスにCPU使用率やメモリ使用率を設定している場合、トラフィックが一切無くても計測値は「0」にならず、「0.29」等の小数点になってしまうため、最後のタスクは停止されずに残り続けます。
一方、ALBリクエスト数では、計測値「0」(アクセス数「0」)を物理的に満たすことが可能ですので、メトリクスは「ALBRequestCountPerTarget」にする必要があります。
2.複数のターゲット追跡ポリシーを設定しない
ターゲット追跡ポリシーを複数設定した場合、スケールアウトはOR条件で実行されますが、スケールインはAND条件で実行されます。
It will scale out the service if any of the target tracking policies are ready for scale out, but will scale in only if all of the target tracking policies (with the scale-in portion turned on) are ready to scale in.
いずれかのターゲット追跡ポリシーがスケールアウトの準備ができている場合はサービスがスケールアウトされますが、すべてのターゲット追跡ポリシー (スケールイン部分がオンになっている) がスケールインの準備ができている場合にのみスケールインされます
一方のメトリクスを「ALBRequestCountPerTarget」にして計測値「0」の条件を満たしても、スケールインは全てのメトリクスで計測値を「0」にしないとスケールインされません。
よって、CPU使用率やメモリ使用率では計測値「0」を満たすことは困難なので、メトリクスは「ALBRequestCountPerTarget」1つだけにする必要があります。
3.連続15分間アクセス数が「0」であること
ターゲットの追跡で自動的に設定されるスケールインのCloudWatchのアラームは、
「メトリクスが1分間隔で15分内の15ポイントが閾値を下回る」です。
つまり、連続15分間アクセス数が「0」の場合にスケールインされます。
実験
前提
- タスクの最小数を
0
にする - 3つのタスクを立ち上げて何もせずにスケールインされるか待機
- スケールインのクールダウンは60秒とする
- 15分でアラーム、16分でタスク2、17分でタスク1、18分で全停止と予測(誤差あり)
①CPU使用率
15分経過(タスク3)
16分経過(タスク3→2)
17分経過(タスク2→1)
20分経過(タスク1のまま)
20分待機してもタスクは停止していません。
CPU使用率では計測値「0」を満たすことができないためと考えられます。
メモリ使用率も同様の結果でした。
②ALBリクエスト数
15分経過(タスク3)
16分経過(タスク3→2)
18分経過(タスク2→1)
20分経過(タスク1のまま)
あれ?
CloudWatchを確認すると
まさかのタイミングで2件のリクエストが来てました。延長戦です。
35分経過
36分経過(タスク1→0)
予想通りの動きが確認出来ました。