NATゲートウェイの障害発生時の対応まとめ
主なトラブルと解決法
1. NATゲートウェイが作れないとき
-
原因
- サブネットのIPアドレスが足りない
- インターネットゲートウェイがアタッチされていない
-
解決策
- サブネットのIPアドレス状況を確認して、空きを確保する
- インターネットゲートウェイを設定し直す
2. インスタンスがネットにつながらないとき
-
原因
- ルートテーブルの設定ミス
- セキュリティグループやネットワークACLがトラフィックをブロックしている
-
解決策
- ルートテーブルを確認して正しい設定にする。
- セキュリティグループとネットワークACLを見直して、必要な通信を許可する
3. ネットが途中で切れるとき
-
原因
- NATゲートウェイは350秒以上アイドルだとタイムアウトする仕様
-
解決策
- キープアライブ設定を有効にする
- 定期的に通信を発生させるスクリプトを組む
4. クォータ(上限)超えたとき
-
原因
- NATゲートウェイやElastic IPの数が上限に達している
-
解決策
- 別のアベイラビリティゾーンにNATゲートウェイを作成する。
- AWSにクォータ増加リクエストを出す
参考リンク
Amazon CloudWatch を使った NAT ゲートウェイのモニタリング
CloudWatchでNAT Gatewayを監視しよう。
監視できるデータ
- 処理済みバイト数(どれだけデータを転送したか)
- パケット数(送受信の回数)
- 接続数(同時にどれだけ繋がってるか)
- エラー率(失敗がどのくらい発生してるか)
どのように使えるか
-
リアルタイムで状況をチェック
データは1分ごとに更新されるので最新の状態がすぐにわかる -
長期間のデータ分析
データは15ヶ月間保存されるので利用状況の傾向を把握できる -
カスタムアラートが作れる
例えば データの転送量が一定以上になったらアラートを出す設定ができる
問題が起きる前に対応できるのが便利
具体的に何ができる?
- トラフィックが多すぎる場所や問題箇所を見つける
- 長期的な利用傾向を見てリソースの計画を立てる
- アラートで異常をすぐにキャッチして対策を考える
参考