More than 5 years have passed since last update.

Datadog で Docker コンテナをモニタリングする

201

Last updated at 2014-10-02Posted at 2014-09-24

概要

Datadog というモニタリングサービスを利用して Docker コンテナの CPU やメモリなどのメトリクス収集・監視とコンテナの死活監視をするという話。

Datadog を使うメリット

Docker をどうモニタリングすべきかのモデルとなる

Datadog のエージェントは、 Docker が依存する Linux の "namespace" と "cgroup" が提供するメトリクスを 15 秒ごとに収集することでモニタリングを行っている。また Docker コンテナをどうモニタリングするか・どうメトリクスを収集するか・どんなメトリクスがあるかを学ばさせてもらっている。

参考: "How Docker monitoring works" Monitor Docker with Datadog - Datadog Blog

コンテナへ自動でタグ付け

Datadog は

Docker コンテナ名
Docker のイメージ
Docker コンテナの起動コマンド
Docker ホストのホスト名 etc

という属性情報をタグとして自動で付与してくれる。

タグを使って特定のコンテナ群のメトリクスをグラフ化

自動で付与されたタグを組み合わせることで任意のダッシュボードやグラフを作成できる。
例えば、

redis イメージを利用したコンテナ群のメモリ使用量のグラフ化
"hello" というホスト名上に起動しているコンテナ数の推移をグラフ化
メモリを多く使っているコンテナ名のランキング化

といったことが簡単にできる。（ちなみにグラフは任意の期間を見たりリアルタイムに見たりできる）

CPU 使用量を Docker イメージ毎に分類してグラフ化した例:

柔軟なアラート設定

グラフ化と同様にタグを使ってコンテナを指定・グルーピングし、それぞれのメトリクスや状態によってアラートを出すができる。例えば、

web という Docker ホスト群上で止まっているコンテナがあればアラート
elasticsearch イメージのコンテナの最大メモリ使用量が閾値に達したらアラート

さらに、アラートの飛ばし先も色々選択肢がある。

メール
チャット（HipChat とか Slack とか）
Webhook
Pagerduty
etc

redis2.8 というイメージのコンテナの平均メモリ使用量が閾値に達したらアラートを出す例:

Slack へグラフをシェアした例（アラートもこんな感じで出る）:

コンテナのライフサイクルのモニタリング

コンテナは VM のような 1 サーバではなく、OS のプロセスとして存在するよう設計されているので、より頻繁に作成や消去が行われる。Datadog を使うと、 Docker コンテナの create/start/stop/destroy イベントがイベントストリーム（インフラのタイムラインみたいなもの）に流れる

Docker コンテナのメトリクスとイベントストリームを並べて表示した例:

メトリクスを探す

インクリメンタルに Docker のメトリクスを探すことができる

Datadog でモニタリングする

Datadog のエージェント、dd-agent を使って docker コンテナをモニタリングする場合、2 種類の方法がある

Docker ホストに dd-agent をインストールしてモニタリングする
モニタリング専用コンテナとして dd-agent コンテナを起動する

CoreOS ならば後者一択になる。どちらにしても必要な作業はほんのちょっと。

Docker ホストにインストールした dd-agent を利用する

ホスト OS が ununtu の例

# インストール
$ DD_API_KEY=<DATADOG_API_KEY> bash -c "$(curl -L https://raw.githubusercontent.com/DataDog/dd-agent/master/packaging/datadog-agent/source/install_agent.sh)"

# docker 監視設定ファイル作成
$ sudo cp /etc/dd-agent/conf.d/docker.yaml.example /etc/dd-agent/conf.d/docker.yaml
$ ls -la /etc/dd-agent/conf.d/docker.yaml
-rw-r--r-- 1 dd-agent root 1114 Aug  5 20:12 /etc/dd-agent/conf.d/docker.yaml

# dd-agent 起動
$ sudo dd-agent start

# 起動状態を確認
$ sudo dd-agent info
  Checks
  ======

    docker
    ------
      - instance #0 [OK]
      - Collected 29 metrics, 0 events & 0 service checks

これで完了。

dd-agent コンテナを利用する

コンテナが動いているマシンにて、 dd-agent コンテナを立ち上げる。

$ docker run \
  -d \
  --privileged \
  --name dd-agent \
  -h `hostname` \
  -v /var/run/docker.sock:/var/run/docker.sock \
  -v /proc/mounts:/host/proc/mounts:ro \
  -v /sys/fs/cgroup/:/host/sys/fs/cgroup:ro \
  -e API_KEY=<DATADOG_API_KEY> \
  datadog/docker-dd-agent

これで完了。

参考: Datadog で CoreOS をモニタリングする

スクリーンショット

ステータス確認用ダッシュボードの例:

runnning/stopped コンテナ数のグラフ例:

コンテナだと数秒で台数を増やせるので、今コンテナ何台立ってるのか見られるの楽しい。

全コンテナが利用してるメモリの合計グラフの例:

heroku の dyno grid だったり mesos でホストマシンを 1 つの大きなマシン（リソース）として見なすような環境であればアグリゲートしたメモリ使用量とかも見たくなる。こういうのも sum:docker.mem.rss {*} みたいにしてグラフ化できる。（kibana でもできるけど...）

アグリゲーションについての考え方は Cluster Management and Containerization by Benjamin Hindman From Twitter
ですごくわかりやすく説明されてる。

メモと感想

TODO コンテナ上で起動してるサービスのモニタリング方法を追記する

TODO Runtime Metrics について別記事を書く

WIP

REF

201

197

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up