2025年4月15日のAWS東京リージョンでの障害について、簡単にメモをまとめておきます。
何が起きましたか?
2025年4月15日16時40分頃から17時43分頃まで、AWS東京リージョンのアベイラビリティゾーン(AZ)「apne1-az4」で障害が発生しました。この障害により、当該AZで稼働していたEC2インスタンスや、それを利用するAWSサービスにおいて、接続障害やエラー率の増加、レスポンスの遅延などが発生しました。特に、Amazon EC2を中心に複数のサービスに影響が及びました。 AWSは、以下のように報告しています。
15日午後4:40~5:43 (日本時間)の間、AP-NORTHEAST-1 リージョンの単一のアベイラビリティーゾーン (apne1-az4) において、一部のEC2インスタンスへの接続の問題が発生した
(Amazon Elastic Compute Cloud (Tokyo) - April 15, 2025 | AWS Health Dashboard)
AP-NORTHEAST-1
は東京リージョンを指します。 apne1-az4
は東京リージョンにあるアベイラビリティゾーンの一つのAZ IDです。ただし、これが通常使われるアベイラビリティゾーン名 ap-northeast-1a
~ ap-northeast-1d
のどれにあたるかは、それぞれのAWSアカウントによって異なります。
またEC2以外の影響が及んだサービスとして、AWSは以下のように報告しています。
Impacted (15 services): AWS CodeCommit, AWS Lambda, AWS NAT Gateway, AWS Network Firewall, AWS Systems Manager, AWS Transit Gateway, AWS VPCE PrivateLink, Amazon CloudWatch, Amazon Elastic Container Service, Amazon Elastic Load Balancing, Amazon Location Service, Amazon Redshift, Amazon Relational Database Service, Amazon Simple Storage Service, Amazon WorkSpaces
原因は何ですか?
障害の原因は、当該AZにおける主電源と二次電源の両方が遮断されたことによる停電です。これにより、一部のEC2インスタンスや関連サービスが影響を受けました。AWSは、以下のように報告しています。
影響を受けたEC2インスタンスへの主電源と二次電源が遮断されたことが原因である
(Amazon Elastic Compute Cloud (Tokyo) - April 15, 2025 | AWS Health Dashboard)
他社サービス等への影響波及は?
この障害は、AWS上で運用されている複数の他社サービスにも影響を及ぼしました。具体的には、以下のような事例が報告されています。
- スマートフォンゲーム「プロジェクトセカイ カラフルステージ! feat. 初音ミク」などが通信エラーを理由に緊急メンテナンスを実施。(参考)
- スマホ決済サービス「PayPay」や「au PAY」で一時的な不具合が発生。(参考)
- クラウドサービス「DirectCloud」で、全文検索やログデータの取得に支障が生じた。(参考)
- クラウド製品「LOGOSWARE Xe」などでアクセスが不安定になる事象が発生。(参考)
- 宿泊施設向け予約管理システムinntoで、ログイン負荷が発生(参考)
今回のような障害に備えるには?
今回の障害は単一AZ障害だったので、マルチAZ構成が有効だったと想定できます。これは複数のAZにサーバーを置いて、単一AZの障害時には他方のAZに置かれたサーバーのみでサービスを継続する構成です。
気になる点としては、過去には2021年9月に東京リージョンの障害があり、この際は単一AZの障害にもかかわらず、AWSも以下のように報告しています。この時は、マルチAZ構成でも影響があったことになります。
個別のケースのいくつかで、複数のアベイラビリティゾーンで稼働していたお客様のアプリケーションにも、予期せぬ影響(例えば、 Application Load Balancer を AWS Web Application Firewall やスティッキーセッションと組み合わせてご利用しているお客様の一部で、想定されるより高い割合でリクエストが Internal Server Error を返す)があったことを AWS では確認しております。
(東京リージョン (AP-NORTHEAST-1) で発生した Amazon EC2 と Amazon EBS の事象概要)
しかし今回の障害では、以下からマルチAZが有効だっただろうと想定しています。
- 今のところ、筆者はマルチAZ構成だったがサービスダウンしたという事例を見つけられていません。
- 「AWS東京リージョンAZ障害発生時のDevelopersIOブログへの影響調査」によれば、マルチAZ構成のAppRunnerでホストされていた同ブログは、サービス継続できていたようです。
また今回の障害についてのITmediaの記事は、末尾をこう結んでいました。
アベイラビリティゾーンとは、リージョンをさらに細かく区切ったもので、どこかのAZでトラブルが起きても他のAZでサービスが使えるよう設置されている。今回の障害により、SNSでは複数のAZを使うことで障害に備える「マルチAZ」に関心を寄せる声も散見される。
まとめ
障害規模としては、東京リージョンの単一AZで発生し、1時間ほどで解決した、主としてEC2の障害とまとめられます。今回の障害に対しては今のところ、マルチAZ構成での対応が可能なものだったと思われます。
参考情報
障害について。
- Amazon Elastic Compute Cloud (Tokyo) - April 15, 2025 | AWS Health Dashboard
- AWS東京リージョンで約1時間続いた障害、原因は主電源と二次電源が遮断されたことが原因。AWSが明らかに - Publickey
他社サービスへの影響について
- 複数のスマホゲームで“緊急メンテ”する事態 「通信エラーが発生」 原因はAWSの障害か - ITmedia NEWS
- アマゾンウェブサービスで障害発生 その影響でau PAYやPayPayやJALのQRコードでも一時障害 | NHK | IT・ネット
- 【重要】AWS障害によりクラウド製品が一部不安定な状態が発生しておりました。(復旧済み) | LOGOSWARE製品サポートサイト
- 【重要】システム障害 復旧のご報告(4月15日 18:00更新) - innto(イントゥ)
今回のような障害へのマルチAZ構成による備えについて。
- AWS東京リージョンAZ障害発生時のDevelopersIOブログへの影響調査(2025/04/15) | DevelopersIO
- 15日のAWS東京リージョン障害、原因は「主電源と2次電源の遮断」 - ITmedia NEWS
2019年8月のAWS東京リージョン障害について。
- 東京リージョン (AP-NORTHEAST-1) で発生した Amazon EC2 と Amazon EBS の事象概要
- AWS、東京リージョン23日午後の大規模障害について詳細を報告。冷却システムにバグ、フェイルセーフに失敗、手動操作に切り替えるも反応せず - Publickey
-
AWS障害、“マルチAZ”なら大丈夫だったのか? インフラエンジニアたちはどう捉えたか、生の声で分かった「実情」(1/3 ページ) - ITmedia NEWS
nen8gatuno
(参考)アベイラビリティゾーン名とAZ IDについて。
- AWS リソースのアベイラビリティーゾーン IDs - AWS Resource Access Manager
- AWS Availability Zones - AWS Regions and Availability Zones
AWS Health Dashboardの障害イベントの詳細
AWS Health Dashboardに記録されている、障害イベントの詳細は、以下の通りでした。
Region: Tokyo (ap-northeast-1)
Service: Amazon Elastic Compute Cloud
Description:
- 1:15 AM PDT 現在、AP-NORTHEAST-1 リージョンの単一アベイラビリティーゾーン (apne1-az4) のインスタンスに影響している接続問題を調査しています。
- 1:21 AM PDT 回復の兆しが見られ始めていますが、AWSは完全な回復に向けて引き続き注視し、取り組んでいます。他の AWS サービスもこの問題の影響を受けており、これらも回復の兆しが見られております。30〜60分以内に次のアップデートをご提供します。
- 1:51 AM PDT 午後 4:40 から午後 5:43 (日本時間) の間、AP-NORTHEAST-1 リージョンの単一のアベイラビリティーゾーン (apne1-az4) において、一部の EC2 インスタンスへの接続の問題が発生しました。これは、影響を受けた EC2 インスタンスへの主電源と二次電源が遮断されたことが原因でした。この間、お客さまは、影響を受けたアベイラビリティゾーンで起動されたインスタンスや、影響を受けた EC2 インスタンスを使用する他の AWS API において、エラー率やレイテンシーの増加の影響を受けた可能性があります。エンジニアは数分以内に自動的に対応し、すぐに緩和策の調査を開始しました。この問題は再発しないことが期待されています。残りの少数のインスタンスは、停電による悪影響を受けたハードウェアでホストされています。影響を受けたすべてのインスタンスとボリュームの復旧に引き続き取り組んでいきますが、即座に復旧を行うためには、可能であれば、影響が残存しているインスタンスまたはボリュームを交換することをお勧めします。事象は解決し、サービスは正常に動作しています。
Impacted (15 services): AWS CodeCommit, AWS Lambda, AWS NAT Gateway, AWS Network Firewall, AWS Systems Manager, AWS Transit Gateway, AWS VPCE PrivateLink, Amazon CloudWatch, Amazon Elastic Container Service, Amazon Elastic Load Balancing, Amazon Location Service, Amazon Redshift, Amazon Relational Database Service, Amazon Simple Storage Service, Amazon WorkSpaces