お疲れさまです。アプリケーション側で以下のエラー事象が発生したため、
インフラ側のログ・メトリクスをご確認いただけますでしょうか。
■ 事象概要
・発生日時:{yyyy-MM-dd HH
ss}
・対象環境:{dev/stg/prod など}
・事象:{エラー概要}
・発生頻度:{単発/継続/断続}
・影響範囲:{処理名/機能名など}
■ アプリ側ログ抜粋
{ここにエラーログを貼る}
■ インフラ側で確認いただきたい観点
-
コンピュート基盤
- 稼働状況(CPU/メモリ/ディスク/ネットワーク)
- 再起動・イベント・スケール動作の有無
-
ネットワーク
- 通信エラー(接続拒否、タイムアウト、パケットロス)
- ルーティング/DNS/ファイアウォール設定の異常
- 通信先・通信元の疎通状態の変動
-
メッセージング/キュー/ストリーム基盤
- 対象チャンネルの状態
- 遅延、滞留、エラーイベントの有無
- 認可設定・接続エラーの有無
-
データストア
- 接続数・セッション数の逼迫
- ロック・タイムアウト・スロークエリ
- recent change(設定・構成変更)の有無
-
共通基盤(認証・監視・構成管理など)
- 認証・認可周りの拒否ログ
- 外部サービス/API の異常
- 直近の構成変更・デプロイの有無
■ 補足
アプリ側では以下を事前確認済みです:
・{例:リトライ設定/接続先設定/再現条件 など}