この記事について
Downdetector (ダウンディテクター) について勘違いしている人が多数見受けられるので、正しい使い方(?)をまとめたものです。
AWS東京リージョンの大障害
2019/08/23にAWS東京リージョンで大障害が発生しました。
サービスが停止して阿鼻叫喚した方、仕事にならないと諦めて帰った方、など、悲喜こもごもだったのではないかと思います。
そんな障害発生している際、主にSNS界隈で以下のような地図をよく見かけませんでしたでしょうか?
この地図は Downdetector ( ttps://downdetector.jp/
←あえてリンクにはしません ) が提供している障害発生マップです。
上の画像は8/23の実際のAWS障害時にスクリーンショットを撮ったものです。
この地図をパッと見て、どのように感じるでしょうか。
「 『Amazon Web Service の障害発生マップ』で、東京と大阪が赤くなっているから、そこで大障害が発生しているんだな」と思う方が多数だと思います。
しかし、この地図が表している情報は「障害が発生している事実」ではありません。
<追記 2023/11/13>
2019年当時は上記のようなスクリーンショットをSNSに貼るのが主流でしたが、現在は以下のようなスクリーンショットが主流のようです。
この折れ線グラフの爆上がり量を見て「障害」と短絡的に判断している人が多数のようですが、このグラフが表している情報は「障害が発生している事実」ではありません。
</追記>
Downdetector が提供している情報とは?
この Downdetector のページに表示されている情報は何?
そもそも、この情報の元ネタは何なのでしょうか?
Downdetectorのサイトによると、以下のような記載があります。
ダウンディテクターの機能について
ダウンディテクターは様々な情報源から障害状況レポートを収集します。 収集したデータをリアルタイムで分析することにより、私たちのシステムはかなり早い段階で自動的に障害やサービスの中断を探知することが可能です。 分析するレポートの情報源のひとつがツイッターです。
(ttps://downdetector.jp/downdetector-nitsuite/
より引用)
<追記 2020/09/29>
2020/09時点では以下のような記述になっています。
Downdetectorの仕組み
Downdetectorは、弊社のウェブサイトやモバイルアプリに提出されたレポートや、Twitterなど、一連のデータソースから、ステータスレポートを収集します。弊社のシステムではレポートがリアルタイムに検証・分析されるため、障害やサービス停止が発生した際には、初期の段階で自動的に検出することが可能となっています。
(ttps://downdetector.jp/about-us/
より引用)
</追記>
つまり、Downdetectorの地図が表す情報は、実際に障害が発生しているという事実ではなく、ユーザからの申告やツイッターなどのSNSなどで「障害なんじゃね?」とザワザワしている状況 です。
地図上の丸の大きさや色は、発生中の障害の規模ではなく、「ユーザのザワザワ度合い」でしかありません。
「流れ弾」的な誤報の可能性も
上記の通り、Downdetector は、ツイッターを始めとするSNSの情報を重要視しているようです。
ここで、
AWSの東京リージョンで障害が起きているらしい。困った困った。
こんなツイートを「AWSの障害」と判断してくれるのは理解できると思います。
そうではなく、
AWSの東京リージョンで障害が起きているらしいけど、おれはAzureを使ってるから大丈夫だよーん。
こんなツイートがあると、どうやらDowndetectorは 「Azureの障害」とも判断してくれるようです。完全な流れ弾です。
あくまでSNSの情報を機械的に解析しているだけでしょうから、こんな判定ミスが発生してしまうのも仕方ないと思います。
実際問題、2018年12月に Softbank が大きな通信障害を起こした際、ドコモやauが流れ弾をくらった実績があるようです。
https://www.itmedia.co.jp/news/articles/1812/07/news081.html
まとめ
- Downdetector は、障害の事実や障害の規模を伝えるサイトではなく、SNSの情報やユーザからの口コミを集約して可視化している「まとめサイト」です。
- Downdetector の情報は、障害情報としての信憑性は高くないと言わざるを得ません。
- 誤報も発生します。
ということで、Downdetectorの情報だけを見て障害発生中と認識するのは危険であることは、ここまで読めばわかっていただけるのではないかと思います。
Downdetector方面でざわついているのをきっかけにして、公式の障害情報を確認したり、自分で裏取りの確認をしたり、 というやり方が正しい使い方ではないかと思います。
おまけ
IT系のメディアでも勘違いしている人が多数います。困ったものです。
例
ttps://www.itmedia.co.jp/enterprise/articles/1908/23/news111.html
ttps://www.itmedia.co.jp/news/articles/1705/09/news086.html