zukka
@zukka

Are you sure you want to delete the question?

Leaving a resolved question undeleted may help others!

CloudWatchのRDSのメトリクス値が途切れている

解決したいこと

CloudWatchのRDSのメトリクスの値が取れていない瞬間があるのはなぜ?

スクリーンショット 2023-10-30 14.09.40.png

画像は稼働中のAuroraのCPUUtilizationのメトリクスです

確認した内容

RDSインスタンスの最近のイベントなし
RDSのログを確認するもログなし
AWS CLIからコマンドで1週間分確認したが、再起動のログなし

RDSに設定しているメンテナンスウインドウの時間が発生時間に該当する。
マイナーバージョン自動アップグレードは有効になってる

前後でエンジンバージョンの変化はなし
5.7.mysql_aurora.2.11.2

直前のCPU、メモリの値に異常はなく、落ちたとは考えにくい。

推測

何らかのメンテナンスが実行されてRDSインスタンスが再起動された?
その他の原因でRDSが落ちた?
→再起動、起動のログは残らない?

質問

画像のようにCloudWatchのメトリクスの値が途切れる原因はRDSインスタンスの再起動以外にありますか?

0

1Answer

直前のCPU、メモリの値に異常はなく、落ちたとは考えにくい。

メモリの値に異常がないのは直前だけかも知れません。(目盛りは分)

16:12頃cpuが50%から下っています。
これは51.6%が最高値でしょうか?

メモリが有るアプリに割り当てされた際、メモリ不足に陥り、不要なメモリの開放にcpuを急激に使用し、フリーズ状態になったのではないでしょうか?偶然にもCloudWatchのタイムアウト値以内で自然復旧しただけでは?

メモリは何ギガですか?

aws ec2(4G+2cpu)の環境でメモリ不足で停止した時があります。その時は停止の前兆となるログは有りませんでした。

0Like

Comments

  1. @zukka

    Questioner

    コメントありがとうございます。

    はい、51.6%が最高値です。
    以降、
    41.6%
    15.3%
    20.0%
    16.2%
    と推移しています。
    再起動後だから51.6%まで上がっているのかと思っていますが、違っていますか?

  2. 再起動後ならログは残るのでは?

    何コアか知りませんが、複数のミドルウェアでcpuを取り合いするので必ずしもAuroraが100%でフリーズするとは限りません。

    自然復旧の時、Auroraにcpuが51.6%割り当てられたとも解釈できます。

    メモリは何ギガですか?

  3. @zukka

    Questioner

    仰るとおりです。
    再起動していると思いっているのですが、ログが残っていないので不明に思っています。

    再起動→ログが残る
    ログがない→再起動ではない
    メトリクスの値がとれていない→???

    メトリクス値が途切れる=再起動
    と思い込んでいる点が誤りかもしれません。

  4. 業務、サービスに支障のない範囲で再起動が可能なら(試験環境がベスト)実施して、再起動の正常なログを採取しマニュアル化することをお奨めします。

    私は経験からメモリ不足が原因とおもいます。

  5. @zukka

    Questioner

    ありがとうございます。

    業務、サービスに支障のない範囲で再起動が可能なら(試験環境がベスト)実施して、再起動の正常なログ>を採取しマニュアル化することをお奨めします。

    検証してみます。

    私は経験からメモリ不足が原因とおもいます。

    メモリ不足による影響も調べてみます。

Your answer might help someone💌