はじめに
前回の記事 では、Amazon ECS のモニタリングを、Container Insights で行う方法を紹介しました。AWS CLI のコマンド 1 個だけで、Container Insights が利用できるので、非常に素早く利用開始できるのが特徴です。
Container Insights でも十分運用が出来ると思いますが、個人的に気になる点があります。Container Insights では、タスク単位の過去のメトリクスが取得出来ない挙動となっています。最新のメトリクスはタスク単位で取得できますが、過去に遡って確認することはできません。とはいえ、サービス単位の過去メトリクスが取得できるので、これで十分と考えることも出来ます。が、個人的にはタスク単位で過去のメトリクスが見たいときがあるので、別の方法を検証してみます。
Prometheus, Grafana で可視化
ECS には、ADOT Collector (AWS Distro for OpenTelemetry Collector) を利用して、コンテナのメトリクスを収集する仕組みがあります。これを利用すると、タスク単位で過去のメトリクスを取得し、可視化することが出来ます。今回は、ADOT Collector を使って、Prometheus と Grafana のマネージドサービスを利用する方法を整理します。
まずどんな可視化ができるのかを紹介すると、シンプルな可視化の例ですが、次のように ECS Task ごとに Memory や CPU の使用率が取得できます。ECS Task の増減や再作成に合わせて、自動的に可視化ができるので、便利にモニタリングができます。
「5b59c2643a7e4dba9749b8ad98d86ecb」や「c3b87ca3f42540689ac3f0a00f23843f」の文字列の羅列が見えますが、これは ECS の Task ID です。グラフの中に、黄色と緑の線が見えており、2 つの Task の状況がわかります。
それでは、ADOT Collector を使った構成方法を確認していきましょう!
Amazon Managed Service for Prometheus
Amazon Managed Service for Prometheus (AMP) は、既に作成している状態です。AMP の詳細画面に Endpoint - remote write URL が表示されています。
ECS Task 定義作成
ECS の Task 定義を作成します。Task 定義の中で、ADOT Collector を有効化する欄があります。Create new task definition を選択します。
適当に名前を入れます。
1 個目のコンテナイメージを適当に指定します。中身はなんでも良い、独自アプリケーションの立ち位置のコンテナです。
2 個目のコンテナイメージも同様に適当に指定します。
Next を押します。
Role を指定します。以下のものは、ADOT Collector に関する権限を付与しているロールです。
Use log collection の部分はデフォルトのままです。
ここが、ADOT Collector に関する大事な部分です。以下のように指定することで、ADOT Collector のコンテナが ECS Task 内で起動します。
- Use trace colelction : on
- Use metric collection : on
- Amazon Managed Service for Prometheus の [Endpoint - remote write URL] を指定
Create を押します。
Task 定義が作成されました。
- Container に、自動的に
aws-otel-collector
が入っている。これは、AWS Distro for OpenTelemetry Collector のコンテナイメージとなる。
Service の作成
作成した ECS Task を使って、適当に Service を作成します。
適当に指定して、Deploy します。
Deploy が出来ました。
ADOT Collector のログ
CloudWatch Logs に、ADOT Collector に関する Log group があります。
適当に選択すると
いろいろログが出ています。
Grafana 権限設定
Amazon Managed Grafana (AMG) は事前に有効化していますが、AMP にアクセスするための権限設定が必要です。
AMP に関して、Enable をします。
Updating となります。
一定時間後、Active に変わりました。
Grafana で可視化
Grafana のページを表示します。
AWS Services を選びます。
Prometheus を選択します。
Region や、AMP を指定して、Add 1 data source を押します。
Dashboard を開きます。
新しい panel を追加します。
データソースを変更して、AMP を選択します。
以下の文字列を指定して Aplly を押します。Task ごとに CPU 使用率が取得できています。
ecs_task_cpu_utilized
{{aws_ecs_task_id}}
ECS CPU Utilized
また、2枚目の Add Panel を押します。
add
メモリに関するパネルを追加します。
ecs_task_memory_utilized
{{aws_ecs_task_id}}
このように、Memory と CPU に関するメトリクスが正しく取得できました。
検証を通じてわかったこと
- ECS Task を動的に取得可能!素敵!
- ECS サービス名が、Undefine となっている
- Amazon Managed Service for Prometheus のメトリクス保存期間は、150 日固定となる。150 日を過ぎると、自動的にメトリクスが削除される。
参考 URL