#はじめに
ITエンジニアとして働いている私たちにとって、監視とは非常に当たり前なものとなった。
しかし、存在することが当たり前となった結果、「そもそもなぜ監視しているのか」という意義について知る機会が少ない。
今回は、監視の意義、そもそもなぜ監視しているのかについて説明しようと思う。
#【第一章】~監視システム導入編~
なぜ監視を行うのかについて考えるために、一度監視システムがなかった時のことを考えてみよう。
ケース)WEBサービスを運用する担当者
この会社では、WEBサービスの運用を行っている。わかりやすいように、仮にこれをQiitaとして説明してみよう。
Qiitaでは、度々ユーザから「ページが見れない」という苦情を受けていた。
担当者Aは毎度そのことを全く知らなかったので、慌ててそのページを確認し、表示をされていないことを確認、
ページが再度見れるように対応する。ということを行っていた。
担当者Aは、毎度顧客からの連絡でユーザから苦情を受け付けるのが嫌だった。夜間に連絡を受けてたたき起こされ、睡眠不足気味にもなっていた。
また、経営層から、「何とかして苦情を減らせないかな」と相談を受けていた。
日中の勤務中、Aは数分ごとにブラウザでQiitaのトップページを開き、表示を確認するようにしてみた。
F5キーを押し、正常にページが表示されているかどうかを確認するのだ。
だが、トップページが見れていたにもかかわらず、ユーザから苦情が届いた。それは、「マイページが見れない」というものだった。
確認したところ、確かにマイページが見れなくなっていた。
Aは頭を抱えた。2つのページをブラウザで確認するのはもう無理だ。しかも、他にもトレンドのページ、投稿ページ、記事の表示ページと、
同時に確認しなくてはいけないページはたくさんある。最近qiitadonとかいうサービスまで増やしてしまった。確認しなければいけない対象が多すぎる...。
Aには、Qというエンジニアの友人がいた。Aは知らなかったが、Qは監視のスペシャリストとして、企業のコンサルタントを行っていた。
Aがこの問題についてQに相談したところ、「監視システム」というものを紹介された。
AはQから勧められた監視システムを導入してみた。監視システムは何でもいいが、仮にZabbixとしよう。
Aは手始めに、「HTTP監視」というものを追加してみた。
URLを指定すると、数分おきにそのページが正常に表示されているかどうかを確認し、異常があった場合はアラートをあげてくれるという単純なものだ。
Aは、
「トップページ」「マイページ」「トレンドのページ」「記事の表示ページ」...と監視を追加していった。早く気づきたいので、監視間隔は1秒ごと、1秒間見れない、かつ一度でも見れなくなったらアラートをあげる設定にした。
監視を追加したことで、Aは「ブラウザのリロードをして目でトップページの表示を確認する」という仕事から解放された。
しかも、ユーザよりも早く気づくことができるようになったので、苦情を言われる前にAが対応してしてしまい、そもそも苦情が発生することもなくなった。
Aは非常に満足した様子で、毎晩眠れるようになった。
まとめ
- 監視の本質的な価値
迅速に障害発生に気づくことができる。
迅速な障害対応を行ったりすることができ、ユーザへの影響を最低限にすることができる。
※ ユーザとは、システムの利用者のこと。難しい言い方をすると、最終的にITシステムが価値を提供する相手のこと。
- 監視システムの本質的な価値
人力による24/365の目視等を行わなくても、システムがそれを代行し、人間は異常がある状態を検知した時だけ対応すればよくなる
人力でやると大変、または人力でやるのが到底不可能なことについて、監視システムを利用することで、
省力的に、かつ高品質な監視を提供することができる。
あとがき
監視の定義については「入門 監視」に記載された以下の定義が良いと思う。
書籍にも書かれているが、この定義はGreg Poirier氏がMonitorama 2016というカンファレンスで紹介したものである
監視とは、あるシステムやそのシステムのコンポーネントの振る舞いや出力を観察しチェックし続ける行為である。
【次回】→ 監視チューニング編