この記事の内容は私が独自に調査したものであり、障害の真因を示すものではありません。
情報の取り扱いには十分ご注意ください。
出来事
2020 年 10 月 16 日、朝起きて Twitter を見ようとしたら・・・あれ、見れない。
最新のタイムラインと通知が見られない。トレンドはなぜか知らないが見ることができる。
AWS とかの障害?と予測したものの
Twitter 使えねぇとか言う前に どっかのサーバに障害が起こったのかな?と思って、 AWS 障害
とか GCP 障害
とかでググってみる。
そうすると、 AWS も GCP も障害情報が Twitter に発信されているということが分かった←
これじゃなにもわかんないw
素直に検索してみる
素直に twitter 障害
と検索すると、何やら手掛かりとなるサイトを発見した。
Downdetector
というサイトで Twitter の障害情報が閲覧できるらしい。
Twitter 以外にも、私たちが利用している身近なサービスなどの障害情報を、 Downdetector
に提出されたレポートや他のデータソースから検出して報告する仕組みとなっている。
そして私が Twitter を閲覧する前日から障害が起こっていたらしいということもわかった。
ちなみに App Store と Google Play でもアプリ版が配信されている。
アプリで見てみるとさらなる事実が
アプリで見てみたところ、 Twitter と AWS で朝に報告が増えているのが見えた。
AWS の報告件数が少ないので断定はできないが、おそらく AWS に何らかのトラブルがあったのではないかと推測される。
他にも Amazon や Apex Legends など同時間帯に報告が増えているのが確認できた。
まとめ
情報源やソースが複数存在していることは重要
AWS さんは障害情報を Twitter に報告していたが、今回 Twitter に障害があったため、私は状況を確認するのに非常に苦労した。
でも情報源が複数あったので、一部に障害があっても他の情報源で確認できた。
これは「バックアップに助けられた」という見方ができるかもしれない。
自社サービスなどで顧客データのバックアップを取っていなかった場合に障害などでデータが消失した場合、データを取り戻すことができず、お客様に多大な迷惑(では済まない)がかかってしまう。
そうならないように、何事にも最悪の事態を想定して取り組みたいと思った。
エンジニアになってから思うこと
スマホアプリとか Web サービスが一時的に使えなくなったときに、以前は原因がわからずムズムズして このゲームクソとか言って いたが、エンジニアになって、現在配信されているサービスの多くがサーバ環境をこういった外部サービスに頼っていることを知ってからは、う~がんばれ Twitter ! って心から思えるようになった。
また、外部サービスに頼るサービスを開発・提供する場合、今回のようなリスクがあるということを忘れず認識しておきたい。
そして、不具合の起こっているサービスを頭ごなしにけなす人が減ることを切に願う。