はじめに
AWS DOPの試験対策でExam Readiness: AWS Certified DevOps Engineer – Professional (Japanese)を視聴したので、内容をまとめます。
アジェンダ
分野 | 内容 |
---|---|
1 | SDLC の自動化 |
2 | 設定管理とIaC |
3 | モニタリングとロギング |
4 | ポリシーと標準の自動化 |
5 | インシデントとイベントレスポンス |
6 | 高可用性、対障害性、災害復旧 |
Amazon CloudWatch
メトリクス
- SurgeQueueLength : キューに入れられたリクエストの総数。増加はバックエンドの処理が遅延していることを意味する。SurgeQueueがいっぱいになり処理ができなくなるとSpilloverCountがカウントされる
- カスタムメトリクスを取得するにはアーキテクチャにエージェントをインストールする
- HTTPステータスコードのメトリクス
- BackendConnectionErrorsエラーが増加:ロードバランサーがウォームアップ中の可能性
- HTTPCode_Backend_5xxエラー:データベース負荷の可能性。メトリクスを確認する
- HTTPCode_ELB_4xx:接続がタイムアウトの可能性。インスタンスログを確認する
- Latencyメトリクス
- テスト中の増加はスケーリングの失敗の可能性
- 一般的にはDBのボトルネック、外部サービスへのAPIコール
ログ
アラーム
イベント、ルール、ターゲット
全体像
その他のサービス
CloudTrail
X-Ray
- トラフィックフローを観察することで環境の評価を支援
コードサービスのモニタリング
ロギング
VPCフローログ
Amazon Kinesis
タグ付け
- 管理・検索・フィルターに役立つ
問題例
- 監査人がAWSアカウントからアプリケーション、システム、APIログにアクセスする
-> EC2インスタンスでCloudWatch Logsを設定。CloudTrailを有効化。アクセス権を監査人に付与 - Auto Scalingの応答時間を短縮¥
-> Auto Scalingグループ内のサーバー台数を増やす。Amazon CloudWatchの同時リクエスト数のカスタムメトリクスをパブリッシュする。 - ウェブアプリケーションから最大1分間のレイテンシーが複数回生じた。原因の特定に有用でない手法
-> AWS CloudFormationのスケーリングイベント、ELBのレイテンシーはCloudWatchに記録されるものではない - 404の応答をリアルタイムに検知したい
-> CloudWatch Logsエージェントをインストールし、ログを指定。404エラーを探すフィルターをロググループに適用。CloudWatchアラームを作成 - アプリケーションサーバーのCPU不足
-> インスタンスタイプの変更、Auto Scalingによる拡張