More than 3 years have passed since last update.

RDSが突然不安定になったらバーストバランス(Burst Balance)も疑う

Last updated at 2022-11-11Posted at 2022-01-28

統計データを過去2年分再集計（大きめデータ対象に多数のクエリを実行するのでI/O負荷=High）していたらCloudWatchアラームが届いて｢あー､バーストバランス｡痛い目にあったなぁ｣と懐かしくなったので記事化｡

ポイント

RDSのストレージに汎用SSDを選択して､サイズが小さいボリュームサイズ（例えば100GBとか）で運用しているRDSはバーストバランスが枯渇（0%）すると突然､激重になる｡
- 普段はIOPS性能が3,000 IOPSまでバーストされているので気づかない
- 100GBだと300 IOPSまで性能が落ちる｡
バーストバランス枯渇するのはある日突然｡データ増とアクセス増で徐々に忍び寄るのが怖い｡
- この時､CPUやメモリはむしろ余裕がある（参考スクショを末尾に掲載）
- ので､バーストバランス枯渇問題を知らないと原因特定に時間を要する
Webアプリのバックエンドだと不安定な挙動となる
- リクエストの全てがエラーになるわけではない｡
- 一部はサクサク動く｡一部は遅く｡一部は接続エラーとなるのでややこしい
- コンバージョンが平時より少なくなるがそこそこあるので､コンバージョン監視が役に立たずに発見が遅れる

参考記事

以下が､原因がわからずに冷や汗かいていた時に救われた記事.感謝です｡

RDSで急にパフォーマンスが悪くなったらIOPSを確認！ - Qiita

上記の記事が公開されたときは｢残り｣を確認するすべがなかったようですが､現在はメトリクスが存在してRDSコンソールでモニタリング可能です｡

キーワード｢バーストバランス/Burst Blance｣がわかってしまえば色々と有用な情報があります｡以下はAWS公式｡

汎用 SSD ストレージ > I/O クレジットおよびバーストパフォーマンス

汎用 SSD ストレージのパフォーマンスは、ボリュームサイズの影響を受けます

汎用 SSD ストレージを使用すると、DB インスタンスは 540 万 I/O クレジットの初期 I/O クレジットバランスを受け取ります。
この最初のクレジットバランスは、30 分間で 3000 IOPS のパフォーマンスバーストを維持するために十分です。

ボリュームは、ボリュームサイズの各 1 GiB あたり 3 IOPS というベースラインパフォーマンスレートで、
I/O クレジットを取得します。
例えば、100 GiB の SSD ボリュームの場合、ベースラインパフォーマンスは 300 IOPS になります。