Qiita Teams that are logged in
You are not logged in to any team

Log in to Qiita Team
Community
OrganizationEventAdvent CalendarQiitadon (β)
Service
Qiita JobsQiita ZineQiita Blog
5
Help us understand the problem. What are the problem?

More than 3 years have passed since last update.

posted at

updated at

Route 53 ヘルスチェックをTerraformで定義する

tl;dr

この記事は、Increments Advent Calendar 2017 - Qiita の6日目です

  • Route 53 のヘルスチェックが便利
  • たくさん定義するためにTerraform でヘルスチェックを作成している
  • HTTPSプロキシのcamoの実例

Route 53 のヘルスチェック

外形監視用のサーバを自社で運用する場合、それ自身が稼働していないと監視が正常に行なえません。監視対象と同じデータセンターで監視していると、同じ障害の影響を受けていたり、データセンター内では疎通はできてるけど外部からのアクセスはできていないといったことも起こり得ます。とはいえ、そこの可用性に注力するのは微妙なので、SaaS的なものを使いたいわけです。

この手の外形監視サービスはいろいろなサービスが存在しており、たとえば Mackerel の機能や、uptimepingdom などいろいろあります。

その中で、Route 53 ヘルスチェックを利用するメリットとしては、

  • AWSを既に使っていればサービス契約とか考えなくてよい
  • 東京を含む複数拠点からヘルスチェックしてくれる
  • CloudWatchにメトリクスを出力したり、アラームを設定したり、慣れてるしくみが使える
  • Route 53 の DNS フェイルオーバーにもちろん利用できる

といったところです。

価格について

基本的なヘルスチェックを同一アカウントのELBやEC2インスタンス、S3といったところに行う場合、50件までは無料です。お得ですね。
が、オプション料金というのがあり、以下のオプションを利用すると、1つにつき月1ドルが発生します。

  • HTTPS: HTTPSでヘルスチェックする
  • 文字列マッチング: HTTP/HTTPSレスポンスに指定した文字列が含まれるかチェックする
  • 短インターバル: 通常30秒間隔を10秒間隔に
  • レイテンシー計測: レイテンシーを計測してCloudWatchメトリクスをputする

Incrementsのサービスは基本HTTPS化したので、HTTPSでヘルスチェックしたいですし、指標としてレイテンシーも計測したいので、1ヘルスチェックあたり2ドルオプション料金がかかっていて、積み上げるとそこそこの金額となっています。

Terraform でのヘルスチェック作成

Increments では、AWSやHerokuのインフラ環境の構成管理にTerraformを利用しています。
Herokuであったり、外部サービスであったり、自社でAWS上で構築、運用しているサービス以外も含め監視を行っており、その定義は Terraform で行っています。
1つのケースとして、camoの監視を実例を含めて紹介します。

Calculated Health Check の作成

Qiita では、HTTPS化の一貫として、記事に埋め込まれた画像を camo を通して、HTTPSで提供しています。
CloudFrontを介してオリジンのCache-Controlに応じてキャッシュもしているのですが、この場合、全体のメトリクスを見ていても、以下の理由から正常稼働しているかを判断が難しく、False Alarmがたびたび発生していました。

  • キャッシュヒット率が低い: オリジンのコンテンツのCache-Controlに応じて決まるため低くても正しい
  • 40x、50x の割合が多い: そもそもオリジンが40x、50xを返していたり、デッドリンクが存在する
  • レイテンシが高い: オリジンのレイテンシで左右される

そのため全体のメトリクスとは別に、キャッシュがされず常にオリジンフェッチをし、常に200 OKが返却されることが想定されるターゲットを複数用意し、これを監視対象とすることとしました。
ターゲットは、たとえば、複数リージョンのS3に画像を配置、Cache-Control: no-cache, no-store, must-revalidate をメタデータに指定してキャッシュ抑制したものなど、概ね安定したレスポンスで可用性が担保されていて、CDNがキャッシュされないものとします。

tf定義

locals

ヘルスチェックのターゲットを定義します。ここでは、オリジンのURLと、Camoでそこにアクセスする際のパスを記載しています。

locals {
  camo_child_healthchecks = [
    {
      origin_url    = "http://example.com/test.png"
      resource_path = "/camo_path"
    },
    ...
  ]
}

aws_route53_health_check

複数のヘルスチェックをまとめて作成します。
また、このヘルスチェックは画像に対するヘルスチェックということもありデータサイズが大きいので、デフォルトの30秒毎に8リージョン毎に2つのヘルスチェッカーから呼び出す (=毎分32リクエスト) のヘルスチェックでは転送量も馬鹿にならないので、最小の3リージョンに減らしています。

タグをつけておくと、Datadog連携で、例えばモニターでドメイン名を表示させるということが便利です。(逆に CloudWatch メトリクスは 21bc5f55-7897-493e-a013-b8bc5807c099 という感じのヘルスチェックIDでPutされるため扱いづらいです)

resource "aws_route53_health_check" "camo_child_healthchecks" {
  count             = "${ length( local.camo_child_healthchecks ) }"
  fqdn              = "camo.qiitausercontent.com"
  port              = 443
  type              = "HTTPS"
  resource_path     = "${lookup(local.camo_child_healthchecks[count.index], "resource_path")}"
  failure_threshold = "2"
  request_interval  = "30"
  measure_latency   = true
  regions           = ["ap-northeast-1", "ap-southeast-1", "us-west-2"]

  tags = {
    Name    = "via Camo to ${lookup(local.camo_child_healthchecks[count.index], "origin_url")}"
    env     = "production"
    fqdn    = "camo.qiitausercontent.com"
  }
}

そして、calculated health check をつくります。
ここでは全体のうち2個が失敗したら失敗とみなすとしています。

resource "aws_route53_health_check" "camo_calculated_healthcheck" {
  type                   = "CALCULATED"
  child_health_threshold = 2
  child_healthchecks     = ["${aws_route53_health_check.camo_child_healthchecks.*.id}"]

  tags = {
    Name    = "Camo calculated health check"
    env     = "production"
    fqdn    = "camo.qiitausercontent.com"
  }
}

aws_cloudwatch_metric_alarm

なにげにわかりづらいところですが、Route 53はグローバルサービスなのでリージョンを気にしなくてよいのですが、CloudWatchメトリクスは us-east-1 に書き出されるので、アラームも同じリージョンを使う必要があります。
デフォルトのリージョンと異なるのでエイリアスを定義して指定しています。

resource "aws_cloudwatch_metric_alarm" "qiita_camo_healthcheck" {
  provider            = "aws.us_east_1"
  alarm_name          = "route53-healthcheck-camo-qiitausercontent-com"
  comparison_operator = "LessThanThreshold"
  evaluation_periods  = "1"
  metric_name         = "HealthCheckStatus"
  namespace           = "AWS/Route53"
  period              = "60"
  statistic           = "Minimum"
  threshold           = "1"
  alarm_actions       = ["${var.aws_sns_topic_route53_healthcheck_arn}"]

  dimensions {
    HealthCheckId = "${aws_route53_health_check.camo_calculated_healthcheck.id}"
  }

  depends_on = ["aws_route53_health_check.camo_calculated_healthcheck"]
}

コンソール

こんな感じで見られます。

Route_53_Management_Console.png

まとめ

Route 53 ヘルスチェックを利用することにより、false alarmを無くし、サービスに問題があったときに速やかに検知して対応することに注力できるようになったので気に入っています。

今回は特殊なケースとなるプロキシの外形監視を説明しましたが、普通の監視を Terraform モジュール化したはなしを次に書く予定です。

Why not register and get more from Qiita?
  1. We will deliver articles that match you
    By following users and tags, you can catch up information on technical fields that you are interested in as a whole
  2. you can read useful information later efficiently
    By "stocking" the articles you like, you can search right away
5
Help us understand the problem. What are the problem?