1
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

5分でわかる!AIで監視を自動化!CloudWatch Anomaly Detectionで「閾値設定」から解放される方法

1
Posted at

5分でわかるAIでインフラ監視を自動化する方法 ~「CloudWatch Anomaly Detection」入門~

隔週でエンジニアもくもく会、実践型ハンズオンを開催中!

私たちハンズオンラボでは、「監視の設定値が決められない」「アラート対応で疲弊している」といったインフラ運用の悩みを解決するためのもくもく会、実践型ハンズオンを定期開催しています。

✅ 完全ハンズオン形式でAWSの動的監視を実際に設定できる
✅ 10年目の現役インフラエンジニアが運用のコツを直接伝授
✅ 初心者大歓迎!現場の「あるある」を共有できる仲間が増える

興味がある方は、ぜひ一度遊びに来てください!
📍 connpassページ: https://zeki-chan-lab.connpass.com/


はじめに:その「閾値」、本当に正しいですか?

「CPU使用率が80%を超えたからアラートを飛ばす」
インフラ監視の現場では当たり前の設定ですが、こんな経験はありませんか?

  • キャンペーンでアクセスが急増するたびにアラートが鳴り響き、慌てて閾値を書き換える
  • 夜間にアクセスが「ゼロ」になる異常事態なのに、上限値しか見ていないから気づけない
  • そもそも「普段の正常な数値」がどれくらいか自信を持って答えられない

こんにちは、ハンズオンラボ運営メンバーの「わたる」です。インフラエンジニアとして10年、監視オペレーターから設計・構築まで歩んできましたが、この「静的な閾値(固定値)」による監視の限界には何度も泣かされてきました。

今回は、AWSの標準機能である「CloudWatch Anomaly Detection(異常検知)」を使い、AIに「いつもと違う」を判断させる次世代の監視方法についてご紹介します。


以前の悩み:キャンペーンのたびに変わる「正解」に振り回される日々

具体的なエピソード

私が運用保守を担当していた3年目の頃、アクセス変動の激しいWebサービスを担当していました。昼間は活発ですが、キャンペーン期間中はスパイク的にアクセスが増えます。そのたびに「CPU高騰」のアラートが鳴り、実態は正常なアクセス増なのに「とりあえず閾値を90%に上げよう」といった場当たり的な対応を繰り返していました。逆に、アクセスが極端に減るような夜間のサイレント障害には、固定の閾値では全く対応できませんでした。

なぜ困ったのか

「いつもと違う」という状態は、時間帯や曜日、イベントによって常に変化します。これを人間がすべて予測して静的な閾値を設定し続けるのは、運用コストの面でも精神衛生上でも無理があったのです。

どう解決したか:AIに「普段のパターン」を学習させる

そこで導入したのが「CloudWatch Anomaly Detection」です。これは過去のメトリクスデータをAI(機械学習)が解析し、そのシステム独自の「予測帯(バンド)」を自動作成してくれる機能です。

設定は驚くほど簡単で、特定のメトリクスに対して異常検知を有効にするだけ。データサイエンティストのような専門知識は不要で、ボタン一つで「日内変動」や「週次パターン」を学習してくれました。


AI監視のメリット:人間が想像もしなかった予兆に気づける

具体的なエピソード

導入後、面白いことが起きました。ある日の深夜、本来なら低いCPU使用率が「ほんの少しだけ」上昇した際にアラートが飛んできたのです。固定値(80%)なら絶対にかからない、わずかな変化でした。

なぜ重要なのか

調査したところ、それは後に大規模なメモリリークを引き起こすバグの初期症状でした。「夜間はこれくらいが普通」というパターンをAIが理解していたからこそ、重大な障害になる前に予兆を検知できたのです。

得られた学び:監視のアップデートは運用コスト削減の第一歩

「異常」の定義をAIに任せることで、閾値をメンテナンスする手間が激減しました。インフラの自動化というとコード化(IaC)に目が向きがちですが、こうした「判断の自動化」こそが、運用の現場を劇的に楽にしてくれます。


まとめ

  1. 「いつもと違う」を人間が定義するのは限界がある。AIの力を借りよう。
  2. CloudWatchの標準機能なら、高度な知識ゼロで今日から始められる。
  3. 動的な監視への移行は、不要なアラートを減らし、運用コストを直接削減する。

監視は「守り」の要ですが、設定に追われていては「攻め」の改善ができません。まずは、身近なCPUメトリクスから異常検知を試してみませんか?


隔週でエンジニアもくもく会、実践型ハンズオンを開催中!

私たちハンズオンラボでは、今回紹介したCloudWatchの設定をはじめ、現場で役立つ実践スキルを学ぶ場を提供しています。

✅ AWSの管理画面を実際に操作しながら学べる
✅ 現場10年目の視点から「本当に必要な設定」がわかる
✅ 失敗しても大丈夫!フォローし合える環境

「一人で設定するのは少し不安……」という方は、ぜひ私たちのハンズオンへお越しください!
📍 connpassページ: https://zeki-chan-lab.connpass.com/

関連リンク

1
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?