2021年9月2日、AWS東京リージョンでAWS Direct Connectの障害があり、調査のサマリが公開されました。
某所でこれ読むの辛いというコメントをもらったので、私の理解の範囲で要点をざっくり箇条書き。分かる人、読める人は上のサマリの方が間違いがなく、より詳しいので、そちらを読んでいただいた方がいいと思います。
概要
- 午前 7 時 30 分から、Direct Connectの東京リージョンに向かうトラフィックについて断続的な接続の問題とパケットロスの増加を観測。
- 午後 12 時 30 分に復旧を観測しはじめ、午後 1 時 42 分に接続の問題は完全に解決。
- Direct Connect ロケーションと東京リージョンの間のネットワークデバイスの一部に障害が発生したことが原因。
- 他のすべてのネットワーク接続は影響を受けませんでした。他の AWS リージョンへの Direct Connect トラフィックも影響を受けませんでした。
根本原因
- 新しいプロトコルとオペレーティングシステムが、2021 年 1 月に初めて実稼働環境に導入された。
- この組み合わせ上を非常に特殊なパケット属性とコンテンツのセットが流れたことで、OSの潜在的な問題が顕在化され障害が発生した。
- これらの条件は非常に特殊で稀で、導入以降8か月正常に動作していたが、今回一致するカスタマートラフィックによってこのイベントが発生した。
- このカスタマートラフィックは、悪意を持って流されたとは考えていない(たまたまだろう)。
対策
- 東京リージョンでは現在このプロトコルが無効化されている。
- 有効化前に問題検出・修正する手法を開発したので、新OSとプロトコルを今後導入予定だった他リージョンを含め、再発は起きない見込み。
終わりに
こんな感じですかね。以下のあたりがちょっとぼんやりしていますが…
- 新プロトコルとは何だったのか、
- 今後も東京では無効化しっぱなしなのか、
- 既存の導入プロセスでは検出できなかったわけだけど、そこは厳格化するのか、それはやりすぎだと考えているのか、
…新プロトコルの話は興味本位でちょっと知りたいな。