RDSのタイムアウトをパラメータ設定で改善した話

Last updated at 2026-01-22Posted at 2026-01-22

運用中のRDSで、以下の減少が発生しました。

CloudWatchメトリクスを確認したところ、クエリ実行時間付近に以下の挙動が発生していました。

メモリが足りず、低速な**スワップ領域（ディスク）**が使われていたため、処理がタイムアウトしていました。

メモリが足りないということでメモリを増やせば解決するのでは、と仮定づけて調査開始。
「work_mem を増やすと改善する」という情報を発見し、パラメーターグループを変更しました。

1 該当パラメータグループを選択し、編集を押下

2 work_mem部分を変更して反映させる

尚、デフォルトパラメータグループは変更できないためカスタムパラメータグループの必要があります。

メモリに収まりきらないデータが溢れ、ディスクI/Oが発生。結果として激しく低速化し、タイムアウトへ。

すべての処理が高速なメモリ内で完結。

RDSのタイムアウト調査では、CPU使用率だけでなく SwapUsage も確認する。
対策として、他のデータベースもcloudwatchで該当部分の監視をして、事前に把握しておく。