はじめに
10/2 に OCI東京リージョンの一部で発生した障害について、今後の参考のために各種情報を残します。
(私自身は影響なかったため、オラクルからの通知や X にポストされていた内容が中心となります)
タイムライン
下表の通りです。発生通知はもう少し早く欲しいですね
イベント | 日時 (JST) |
---|---|
障害発生 | 10/2 19:09 |
障害解消 | 10/2 20:09 |
メール通知 (発生) | 10/2 20:13 |
メール通知 (解消) | 10/2 20:22 |
メール通知
かなりあっさりな内容でした。
発生通知は (もう少し早く通知さえしてもらえれば) ともかく、解消通知に原因なども書いて欲しいと思うのはガラパゴス的感覚でしょうか…
発生通知の記載内容
- 東京リージョンの複数の OCIサービスに影響してる問題を調査中であること
- 影響として、OCIサービスリソースにアクセスできない・利用できない可能性があること
- Start Time: 10/2 19:09 (JST)
- 対象サービス: OCI
- 対象Tenand ID
解消通知の記載内容
- 東京リージョンの複数のサービスで発生していた問題が解決したこと
- Start Time: 10/2 19:09 (JST)
- End Time: 10/2 20:09 (JST)
- 対象サービス: OCI
- 対象Tenand ID
メール通知とほぼ同時刻に、OCIコンソール上にも「お知らせ」が届いていましたが内容はメールとほぼ変わらずでした。
OCI Status
OCI には、各サービスの現在の稼働状況をリージョンごとに確認できる OCI Status というページがあります。
メール通知が遅くてもこのページで異常を確認できれば良かったのですが、X のポストを追いかけた限り、OCI Status 上の表示は正常を示していたようです。
OCI Status の History を見ると、確かに10月は No Incidents Reported となっていました。
自前で監視機能を用意するか、障害発生時の調査で考慮するか、悩ましいところです
X のポスト
X のポストを「OCI」で検索すると、10/2 19:14頃には障害の可能性がポストされはじめていました。(障害発生時刻から約5分後)
公式ゆえの難しさもあるのかもしれませんが、同じスピード感での通知やアナウンスを期待です