AWSの障害
昨夜(2021-12-16の日本時間0時過ぎ)、アメリカの方のAWSに障害があったようです。
うちの監視システムでも検知して、Twitter界隈ではPlay Station Networkが巻き込まれて大騒ぎになっていたようですが、AWSのStatusには障害情報はありませんでした。
うちのサービス環境
うちの会社ではQUALITIA DNSというDNSのホスティングサービスを運用しているのですが、DNSは落とすわけにはいかないので、複数のクラウドサービス、リージョンに分散して運用しています。
この中で、AWSで運用している部分は現時点では、日本、シンガポール、フランクフルト、サンフランシスコにサーバーがあって、Global Accelaratorでリージョンを冗長化している状態です。
また、監視は、AWSの東京リージョン、日本のAWS外のサーバー、サンフランシスコのAWS外のサーバーからそれぞれの各サーバーとGlobal Acceleratorを監視しています。
監視元ごとの状況
こらちは、監視元ごとの失敗のグラフです。
緑は日本のAWS外のサーバーから、紫はサンフランシスコのAWS外のサーバーから、水色はAWSの東京リージョンからの監視状況です。
DNSのリクエストが失敗した数のグラフになっています。
これを見るとAWS内では問題がなくて、外からAWSへの回線か何かに問題があったのではないかという風に見えます。
赤い線が障害のあったルートです。
サーバーごとの状況
こらちは、監視対象ごとの失敗のグラフです。
ns-sf-*はサンフランシスコリージョンのサーバーを直接監視したもので、ns-ga-*はGlobal Accelerator経由で監視したものです。
b, cはAvailability Zoneです。
これを見ると、サーバー直接では障害が起きていますが、Global Accelerator経由では別の生きているリージョンに回されるので、日本からでもサンフランシスコからでも接続に問題なかったことがわかります。
この結果から、AWS網内は生きていて、インターネットからサンフランシスコ辺りのAWSへのネットワークがおかしかったんではないかと想像できます。
結論
ということで、QUALITIA DNSサービスのお客様から見た状態は、ほぼ完全に無停止でした。
Global Accelerator素晴らしいですね。
*本記事は @qualitia_cdevの中の一人、@hirachanさんに書いていただきました。