この記事はNTTコムウェア Advent Calendar 2021 6日目の記事です。
この記事では、携わっている案件で使用しているDatadogについて、
簡単に紹介させていただきます。
はじめに
こんにちはー
社内でチームのDeveloperをしています、佐々木です。
入社1年目にシステムのメトリクス収集・可視化業務を担当していたこともあり、
ログ収集・管理と言えば、ElasticStackというイメージがありました。
そこから数年の時が経ち、今年の2月からアジャイル案件に従事していて
Datadogというクラウドサービスを知りました。
このDatadogというサービス、
今までの感覚がひっくり返るのほど簡単に
システムのログ収集・管理をしてくれます。
何なら、ログ収集だけではなく、
システム運用にかかる手間を解消してくれる様々な機能を提供しています。
本記事では、DatadogのAPMとLogsという機能を用いて、
KubernetesのPodから出力されているアプリケーションログを収集し、
簡単に検索できるようにするための設定方法や使用方法を紹介したいと思います。
本記事を読んで得られるもの
- Podに出力されているアプリケーションログを、Datadogに送信できるようになる
- APMとLogsという機能を使って、アプリケーションログを検索して、エラー解析に役立てられる
Datadogとは
SaaSの形式で提供されるITシステムのモニタリングサービスです。
様々なプラットフォームで稼働するITシステムをモニタリングできます。
Datadog設立の経緯↓
Datadogは、Wireless Generationで同僚として働いていたOlivier PomelとAlexisLê-Quôcによって2010年に設立された。WirelessCorporationがNewsCorpに買収された後、2人は、相反する目的で作業することが多い開発者とシステム管理者チームとの間の摩擦を軽減できる製品を提供しようと試みた。
彼らは、Datadogをダッシュボード、アラート、およびメトリクスの視覚化を備えたクラウドインフラストラクチャ監視サービスとして構築した。クラウドの採用が増加するにつれて、Datadogは急速に成長し、Amazon Web Services(AWS)、Microsoft Azure、Google Cloud Platform、Red Hat OpenShift、OpenStackなどのサービスプロバイダーをカバーするために製品提供を拡大した。
Wikipediaより
開発者とシステム管理者チームとの間の摩擦を軽減できる製品
っていう部分が良いですよね。
ダッシュボード、アラート、およびメトリクスの視覚化を備えた
クラウドインフラストラクチャ監視サービスとしてスタートしたそうです。
AWSやGCP等のクラウドサービスが流行ると共に、
急速な成長を遂げています。
背景と問題
なぜDatadogがとても便利なのかを考えるためには、
システム運用における背景と問題をおさらいするのが早いです。
- システムの健全な運用には、大きな時間とコストが必要
- システムのメトリクスやアプリケーションログを、人間の手で集めて確認するのはとても大変で現実的ではない
- そこで、システムのメトリクスやアプリケーションログを1つの場所にまとめて管理し、必要になったときに検索できるようにしたいと考える
- とはいえ、このような仕組みを0から構築・運用するのには、結局のところ大きな時間とコストが必要
解決策
上記の問題に対する解決策として、
Datadogのようなクラウドサービスを用いることが考えられます。
OSSを用いたログ収集・管理システムを運用するとなると、
環境準備や構築作業等を自前でやらなければなりませんが、
Datadogのようなクラウドサービスだと、その辺の手間を大きく省けるのが強みですね。
Datadogの機能自体はたくさんあるのですが、
本記事では、アプリケーションログに焦点を当てて、
Kubernetes内のAPIが出力したログをDatadogに送信し、
Datadogでログを検索できる仕組みを実装してみます。
(今回は14日間の無料お試し期間を活用します)
バージョン
- node: v14.18.1
- docker: v20.10.8
- minikube: v1.23.2
- helm: v3.7.1
- kubernetes
- Client Version: v1.20.4
- Server Version: v1.20.2
- Datadog Agent: v7
前提条件
- Dockerがインストール済であること
- minikubeがインストールされていること
- DockerHubに作業用のリポジトリが作成されていること
ハンズオン
ここからはハンズオンパートです。
主に、以下の流れで進めていきます。
- Datadogにログを送信するサンプルAPIアプリの作成
- Datadogの登録
- Datadogの設定
- Datadogを使ってみる
事前準備
まずは下準備から進めていきます。
サンプルAPIアプリの作成
まずはログを出力するサンプルのAPIアプリを作成します。
今回はminikubeを使用するので、
Kubernetes内にbusyboxコンテナを立てて、
そのコンテナからAPIに対してリクエストを送ります。
サンプルAPIはとてもシンプルです。
/success にリクエストを投げると、status 200を返します。
/error にリクエストを投げると、status 500を返します。
ディレクトリ構造
今回のハンズオンで使用する
全てのファイルに関するディレクトリ構造は以下のとおりです。
ソースコードと実装
以下、ファイルを準備しましょう。
{
"name": "api",
"version": "1.0.0",
"description": "Node.js on Docker",
"main": "server.js",
"scripts": {
"start": "node server.js"
},
"dependencies": {
"express": "^4.16.1"
}
}
'use strict';
const express = require('express');
// Constants
const PORT = 8080;
const HOST = '0.0.0.0';
// success
const app = express();
app.get("/success", (req, res) => {
res.send("Datadog APM Test Success")
})
// error
app.get("/error", (req, res) => {
res.status(500).send("Datadog APM Test Error")
})
app.listen(PORT, HOST);
console.log(`Running on http://${HOST}:${PORT}`);
package.jsonとserver.jsファイルを作成したら、
packageをインストールします。
その後、node.jsのサーバを立てて、
ローカル環境でAPIの動作を確認しましょう。
~/D/w/j/i/D/e/api ❯❯❯ yarn install
yarn install v1.22.10
warning package.json: No license field
warning api@1.0.0: No license field
[1/4] 🔍 Resolving packages...
success Already up-to-date.
✨ Done in 0.78s.
~/D/w/j/i/D/e/api ❯❯❯ yarn run start
yarn run v1.22.10
warning package.json: No license field
$ node server.js
Running on http://0.0.0.0:8080
別のターミナルを開き、APIに対してcurlコマンドを実行してみます。
~/D/w/j/i/D/exercise1 ❯❯❯ curl -i localhost:8080/success ✘ 130
HTTP/1.1 200 OK
X-Powered-By: Express
Content-Type: text/html; charset=utf-8
Content-Length: 24
ETag: W/"18-I7869XbEC6HwfWnbOsW4Su4KNX8"
Date: Sat, 23 Oct 2021 11:57:00 GMT
Connection: keep-alive
Keep-Alive: timeout=5
Datadog APM Test Success%
~/D/w/j/i/D/exercise1 ❯❯❯ curl -i localhost:8080/error
HTTP/1.1 500 Internal Server Error
X-Powered-By: Express
Content-Type: text/html; charset=utf-8
Content-Length: 22
ETag: W/"16-tK4+NQ9vglErJFlFghaDSSEP52I"
Date: Sat, 23 Oct 2021 11:57:07 GMT
Connection: keep-alive
Keep-Alive: timeout=5
Datadog APM Test Error%
APIから成功とエラーが返ってきた場合、サンプルのAPIは完成です。
次に、APIのDocker Imageを作成し、ImageをDockerHubへpushします。
まずはAPIのDocker Imageを作成するために、Dockerfileを作ります。
FROM node:14-slim
WORKDIR /usr/src/app
COPY package*.json ./
RUN yarn install
COPY . .
EXPOSE 8080
CMD [ "node", "server.js" ]
ImageをDockerHubへpushします。
以降の作業については、
DockerHubのリポジトリ名を「hogehoge/sample-api」と仮定します。
自分で作業を進める場合、個人用のリポジトリを作成してください。
docker build . -t sample-api
docker tag sample-api hogehoge/sample-api:latest
docker push hogehoge/sample-api:latest
DockerHubへサンプルAPIイメージをpushすることができました。
Kubernetesマニフェストファイルの作成
KubernetesのDeploymentとServiceを作成していきます。
apiVersion: apps/v1
kind: Deployment
metadata:
labels:
app: sample-api
name: sample-api
spec:
replicas: 3
selector:
matchLabels:
app: sample-api
strategy: {}
template:
metadata:
labels:
app: sample-api
spec:
containers:
- image: hogehoge/sample-api
name: sample-api
apiVersion: v1
kind: Service
metadata:
labels:
app: sample-api
name: api-service
spec:
ports:
- port: 8080
protocol: TCP
targetPort: 8080
selector:
app: sample-api
status:
loadBalancer: {}
deployment.yamlとservice.yamlファイルを作成したら、applyして動作確認します。
~/D/w/j/i/D/exercise1 ❯❯❯ kubectl apply -f deployment.yaml
~/D/w/j/i/D/exercise1 ❯❯❯ kubectl apply -f service.yaml
~/D/w/j/i/D/exercise1 ❯❯❯ kubectl get svc api-service -w
✘ 1
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
api-service ClusterIP 10.101.251.160 <none> 8080/TCP 2d17h
~/D/w/j/i/D/exercise1 ❯❯❯ kubectl run busybox --image=busybox --restart=Never --rm -it sh
If you don't see a command prompt, try pressing enter.
/ # wget 10.101.251.160:8080/success
Connecting to 10.101.251.160:8080 (10.101.251.160:8080)
saving to 'success'
success 100% |*******************| 24 0:00:00 ETA
'success' saved
/ # wget 10.101.251.160:8080/error
Connecting to 10.101.251.160:8080 (10.101.251.160:8080)
wget: server returned error: HTTP/1.1 500 Internal Server Error
APIをKubernetes上で動かすことができました。
ここまでで、事前準備は完了です。
長かったですね。
次から、いよいよ本題です。
Datadogの設定
次に、Datadogの設定を行い、Agentをインストールします。
アカウントの登録
公式ホームページからDatadogのアカウントを登録しましょう。
Datadog Agentのセットアップ
次に、Datadog Agentをセットアップします。
基本的には、Datadogのドキュメントの指示に従って設定します。
今回はKubernetesを使用するため、プラットフォームは”Kubernetes”を選択します。
実際にDatadog Agentを設定していきます。
KubernetesにおけるAgentの設定方法には3つの方法があります。
- Helm
- DemonSet
- Operator
今回は、最も簡単に設定可能なHelmを使って、Datadog Agentを設定します。
まだHelmをインストールしていない場合、
こちらの手順を参考にしてインストールしましょう。
HelmにDatadog用のレポジトリを作成し、アップデートします。
helm repo add datadog https://helm.datadoghq.com
helm repo update
次に、datadog-values.yamlを作成します。
datadog-values.yamlのデフォルトの設定値はこちらに記載されています。
datadog-value.yamlで設定を上書きすることで、Datadogのサービスを有効化します。
yamlを作成したら、Datadog AgentをDeployします。
[Format]
helm install RELEASE_NAME -f datadog-values.yaml --set datadog.site='datadoghq.com' --set datadog.apiKey='hogehoge' datadog/datadog
[example]
helm install datadog -f datadog-values.yaml --set datadog.site='datadoghq.com' --set datadog.apiKey='hogehoge' datadog/datadog
先程作成した空のdatadog-values.yamlに
APMとLogsを有効化する設定を追加します。
logs:
enabled: true
containerCollectAll: true
apm:
portEnabled: true
# enabled: true # Deprecated this config
Datadog Agentをアップデートします。
helm upgrade datadog -f datadog-values.yaml --set datadog.site='datadoghq.com' --set datadog.apiKey='hogehoge' datadog/datadog
これで、Datadog Agentのインストールと設定は完了です。
次に、サンプルAPIとDatadog Agentを連携させてみましょう。
サンプルAPIとDatadogの連携
今の設定だと、APIのログがDatadog Agentに収集されず、
Datadogにログが送信されません。
そこで、Datadogにログを送信できるように、
Kubernetes用のIntegrationをインストールし、
KubernetesマニフェストとAPIを修正します。
※ここからちょっと寄り道
Kubernetesのインフラ状況を可視化するために、
さくっとIntegrationをインストールします。
Integrationから、「Kubernetes Integration」、
「Kubernetes Metrics Server」をインストールします。
それでは、APIとmanifestを修正して、
APMのトレースとLogsを確認できるようにします。
サンプルAPIの修正
まずはAPIを修正します。
Datadogにログを送信するためのライブラリ
「logger.js」を新たに追加します。
また、ロギングに必要な情報を含めるために、
ロギングライブラリ「winston」を使用します。
winstonは、ログレベル、メッセージ、タイムスタンプ等の情報を
ログに含めることができます。
これらの詳細は、Datadog公式ドキュメントの
Node.jsの設定方法をご覧ください。
また、エラーの内容をAPMでトレース出来るようにするために、
ライブラリ「dd-trace」を追加します。
{
"name": "api",
"version": "1.0.0",
"description": "Node.js on Docker",
"main": "server.js",
"scripts": {
"start": "node server.js"
},
"dependencies": {
+ "dd-trace": "^1.5.0",
"express": "^4.16.1",
+ "winston": "^3.3.3"
}
}
const { createLogger, format, transports } = require("winston")
const httpTransportOptions = {
host: "http-intake.logs.datadoghq.com",
path: "/api/v2/logs?dd-api-key="+process.env.DD_API_KEY+"&ddsource=nodejs&service=api",
ssl: true,
}
const logger = createLogger({
level: "info",
exitOnError: false,
format: format.json(),
transports: [
new transports.Http(httpTransportOptions),
],
})
exports.logger = logger
'use strict';
const express = require('express');
+ const winstonLog = require("./logger.js")
// Constants
const PORT = 8080;
const HOST = '0.0.0.0';
+ // APM Settings
+ const tracer = require("dd-trace").init({
+ logInjection: true,
+ })
// success
const app = express();
app.get("/success", (req, res) => {
+ winstonLog.logger.log("info", "/success logger test!")
res.send("Datadog APM Test Success")
})
// error
app.get("/error", (req, res) => {
+ winstonLog.logger.log("error", "/error logger test!")
res.status(500).send("Datadog APM Test Error")
})
app.listen(PORT, HOST);
console.log(`Running on http://${HOST}:${PORT}`);
注意:logger.jsには未完成の点が2つあります。
Datadog Agentを使わずに、「httpTransportOptions」を用いて直接Datadogへログを送信している点
Datadog AgentからDatadogにログを送る方法が上手くいきませんでした...
minikube環境なのも関係しているかもしれません。
時間の都合もあり、直し方が分からないため、エージェントレスの方法を使用しました。process.env.DD_API_KEYで環境変数を読み込んでいる点
datadogのapi keyを暗号化無しで設定するのはセキュリティの観点からNGです。
実際に運用する際には、Kubernetesでsecretから読み込ませるようにしましょう。
Kubernetesマニフェストの修正
エラーが出力された際に、PodのAPIのバージョンや環境等が分かると、
より楽にトラブルの解析が進められます。
そこで、環境変数にこれらの情報を事前に設定します。
すると、Datadog Agentがこれらの情報をタグ付けして、
Datadogにログを送信できます。
詳細はこちらの公式ドキュメントをご覧ください。
修正点は以下のとおりです。
apiVersion: apps/v1
kind: Deployment
metadata:
labels:
app: sample-api
+ tags.datadoghq.com/env: "test"
+ tags.datadoghq.com/service: "api"
+ tags.datadoghq.com/version: "1.0.0"
name: sample-api
spec:
replicas: 3
selector:
matchLabels:
app: sample-api
strategy: {}
template:
metadata:
annotations:
ad.datadoghq.com/sample-api.logs: '[{"source":"express","service":"api"}]'
labels:
app: sample-api
+ tags.datadoghq.com/env: "test"
+ tags.datadoghq.com/service: "api"
+ tags.datadoghq.com/version: "1.0.0"
spec:
containers:
- image: hogehoge/sample-api
name: sample-api
env:
+ - name: DD_AGENT_HOST
+ valueFrom:
+ fieldRef:
+ fieldPath: status.hostIP
+ - name: DD_ENV
+ valueFrom:
+ fieldRef:
+ fieldPath: metadata.labels['tags.datadoghq.com/env']
+ - name: DD_VERSION
+ valueFrom:
+ fieldRef:
+ fieldPath: metadata.labels['tags.datadoghq.com/version']
+ - name: DD_LOGS_INJECTION
+ value: "true"
+ - name: DD_API_KEY
+ valueFrom:
+ secretKeyRef:
+ name: dd-api-key
+ key: DD_API_KEY
DD_API_KEYを環境変数から読み込むために、
DD_API_KEYのsecretマニフェストを作成します。
kubectl create secret generic dd-api-key --from-literal=DD_API_KEY=DD_API_KEY --dry-run=client -o yaml > dd-api-key-secret.yaml
kubectl apply -f dd-api-key-secret.yaml
ファイルの修正は完了です。
変更内容を反映させます。
# Push the API Image to DockerHub
docker build . -t sample-api
docker tag sample-api hogehoge/sample-api:latest
docker push hogehoge/sample-api:latest
# Re-create the deployment to update the Kubernetes image
kubectl delete -f deployment.yaml
kubectl apply -f deployment.yaml
ようやく設定が完了しました。
使い方
作成したAPIを叩いてみて、DatadogのAPMとLogsを確認します。
※何度かAPIを叩きましょう
~/D/w/j/i/D/exercise1 ❯❯❯ kubectl get svc api-service ✘ 1
NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
api-service ClusterIP 10.101.251.160 <none> 8080/TCP 2d17h
~/D/w/j/i/D/exercise1 ❯❯❯ kubectl run busybox --image=busybox --restart=Never --rm -it sh
/ # wget 10.101.251.160:8080/success
/ # wget 10.101.251.160:8080/error
APMを確認します。
APIのLatencyが確認できます。処理が遅いリクエストの特定もできます。
各エンドポイント(/error, /success)のAPMが確認できます。
/errorのAPMを確認してみます。
ログの時間、ステータスコード等が一覧で確認できます。
ログを集積することでシステムの解析が楽になりますね。
1つリクエストの処理時間の内訳をトレースすることができます。
処理のボトルネックを見つけることにも役立ちます。
次にLogsを確認します。
LogsではDatadogで集めたログ全てを表示、検索できます。
特定サービス、環境のログを表示したい場合、
Kubernetesのマニフェストの中で埋め込んだタグを元に、
フィルタリングすることもできます。
ここまで見ていただき、ありがとうございます。
これで、一通りのハンズオンは終了です。
アプリケーション側に簡単な設定を入れるだけで、
ログを収集し、Datadog側で確認することが出来ます。
自前でログ収集・管理システムを構築するよりも、
ぐっと簡単なのが伝わりますでしょうか。
今後の展望
Datadogには、ログを可視化以外にも、
システムメトリクスの可視化、外形監視等
様々な機能が提供されています。
どれも、システムの運用に深く関わる重要な機能ですので、
興味が湧いた方は詳しく調べてみてはいかがでしょうか。
例えばですが...
Alerting and Notification
APM、Logsと親和性が高い
集積したログを元に、ユーザに通知を飛ばすことで、運用の自動化が出来るMetrics
同じく、APMやLogsと親和性が高い
APMと組み合わせることで、より精密に通知を飛ばすことができる 等
Datadogを導入して、クラウド上に構築されているシステムの運用監視を
より簡単に行ってみてはいかがでしょうか?
おわりに
今回は、DatadogのAPMとLogsを設定し、
アプリケーションログの集積、検索方法を説明しました。
Datadogがこんなにも便利なのを知ってしまったら、
自前で運用システムを構築するなんて、やりたくなくなりますね。
今回紹介した機能の他にも、AlertingやMetricsと組み合わせることで、
Datadogではより高度な運用、監視が出来ます。
長々とお付き合いいただき、ありがとうございました。
引き続き、Advent Calendarをお楽しみいただければ幸いです!
※記載されている会社名、製品名、サービス名は、各社の商標または登録商標です。