More than 5 years have passed since last update.

AWS東京リージョンの障害についてメモ

Posted at 2019-08-24

AWSの某AZで障害が起きた件で、Feedが騒がしかった。以下は私見。

Qiitaその他の有益な情報が流れて見えない。鬱陶しいから早く沈静化してほしい。
AWS利用者はSLAを読め。
もともとEC2, RDSで月間稼働率 100% は約束されていない。
SLAに満たなかった部分はサービスクレジットの請求を検討しろ。
https://aws.amazon.com/jp/compute/sla/
https://aws.amazon.com/jp/rds/sla/
サービスの一時停止は起こるもの。
想定していなかったのなら、想定しなかった方が残念。
障害のリスクを受容するか、回避するかは経営判断。
https://ja.wikipedia.org/wiki/%E3%83%AA%E3%82%B9%E3%82%AF%E3%83%9E%E3%83%8D%E3%82%B8%E3%83%A1%E3%83%B3%E3%83%88#%E3%83%AA%E3%82%B9%E3%82%AF%E5%AF%BE%E5%BF%9C
開発者は複数AZを使って、高コストで高い信頼性のシステムを作ってもよい。
単一AZで作って、低コストで低い信頼性のシステムを作ってもよい。
AWSでなくGCPで作ってもよい。
オンプレミスで作ってもよい。
経営判断に重要なことは３つ。
- リスク発生率、発生時の深刻さ、システムの目的を考慮して、合理的かつ経済的な選択がされていること。
- 品質水準が意識的に制御されていること。（高くても低くてもいい。意図的なら。）
- 判断内容が経営陣の支持を得ていること。