AWSの某AZで障害が起きた件で、Feedが騒がしかった。以下は私見。
- Qiitaその他の有益な情報が流れて見えない。鬱陶しいから早く沈静化してほしい。
- AWS利用者はSLAを読め。
- もともとEC2, RDSで月間稼働率 100% は約束されていない。
- SLAに満たなかった部分はサービスクレジットの請求を検討しろ。
- https://aws.amazon.com/jp/compute/sla/
- https://aws.amazon.com/jp/rds/sla/
- サービスの一時停止は起こるもの。
- 想定していなかったのなら、想定しなかった方が残念。
- 障害のリスクを受容するか、回避するかは経営判断。
- https://ja.wikipedia.org/wiki/%E3%83%AA%E3%82%B9%E3%82%AF%E3%83%9E%E3%83%8D%E3%82%B8%E3%83%A1%E3%83%B3%E3%83%88#%E3%83%AA%E3%82%B9%E3%82%AF%E5%AF%BE%E5%BF%9C
- 開発者は複数AZを使って、高コストで高い信頼性のシステムを作ってもよい。
- 単一AZで作って、低コストで低い信頼性のシステムを作ってもよい。
- AWSでなくGCPで作ってもよい。
- オンプレミスで作ってもよい。
- 経営判断に重要なことは3つ。
- リスク発生率、発生時の深刻さ、システムの目的を考慮して、合理的かつ経済的な選択がされていること。
- 品質水準が意識的に制御されていること。(高くても低くてもいい。意図的なら。)
- 判断内容が経営陣の支持を得ていること。