Edited at

我々はなぜ監視を行うのか【第一章】~監視システム導入編~


はじめに

ITエンジニアとして働いている私たちにとって、監視とは非常に当たり前なものとなった。

しかし、存在することが当たり前となった結果、「そもそもなぜ監視しているのか」という意義について知る機会が少ない。

今回は、監視の意義、そもそもなぜ監視しているのかについて説明しようと思う。


【第一章】~監視システム導入編~

なぜ監視を行うのかについて考えるために、一度監視システムがなかった時のことを考えてみよう。


ケース)WEBサービスを運用する担当者

この会社では、WEBサービスの運用を行っている。わかりやすいように、仮にこれをQiitaとして説明してみよう。

Qiitaでは、度々ユーザから「ページが見れない」という苦情を受けていた。

担当者Aは毎度そのことを全く知らなかったので、慌ててそのページを確認し、表示をされていないことを確認、

ページが再度見れるように対応する。ということを行っていた。

担当者Aは、毎度顧客からの連絡でユーザから苦情を受け付けるのが嫌だった。夜間に連絡を受けてたたき起こされ、睡眠不足気味にもなっていた。

また、経営層から、「何とかして苦情を減らせないかな」と相談を受けていた。

日中の勤務中、Aは数分ごとにブラウザでQiitaのトップページを開き、表示を確認するようにしてみた。

F5キーを押し、正常にページが表示されているかどうかを確認するのだ。

だが、トップページが見れていたにもかかわらず、ユーザから苦情が届いた。それは、「マイページが見れない」というものだった。

確認したところ、確かにマイページが見れなくなっていた。

Aは頭を抱えた。2つのページをブラウザで確認するのはもう無理だ。しかも、他にもトレンドのページ、投稿ページ、記事の表示ページと、

同時に確認しなくてはいけないページはたくさんある。最近qiitadonとかいうサービスまで増やしてしまった。確認しなければいけない対象が多すぎる...。

Aには、Qというエンジニアの友人がいた。Aは知らなかったが、Qは監視のスペシャリストとして、企業のコンサルタントを行っていた。

Aがこの問題についてQに相談したところ、「監視システム」というものを紹介された。

AはQから勧められた監視システムを導入してみた。監視システムは何でもいいが、仮にZabbixとしよう。

Aは手始めに、「HTTP監視」というものを追加してみた。

URLを指定すると、数分おきにそのページが正常に表示されているかどうかを確認し、異常があった場合はアラートをあげてくれるという単純なものだ。

Aは、

「トップページ」「マイページ」「トレンドのページ」「記事の表示ページ」...と監視を追加していった。早く気づきたいので、監視間隔は1秒ごと、1秒間見れない、かつ一度でも見れなくなったらアラートをあげる設定にした。

監視を追加したことで、Aは「ブラウザのリロードをして目でトップページの表示を確認する」という仕事から解放された。

しかも、ユーザよりも早く気づくことができるようになったので、苦情を言われる前にAが対応してしてしまい、そもそも苦情が発生することもなくなった。

Aは非常に満足した様子で、毎晩眠れるようになった。


まとめ


  • 監視の本質的な価値

迅速に障害発生に気づくことができる。

迅速な障害対応を行ったりすることができ、ユーザへの影響を最低限にすることができる。

※ ユーザとは、システムの利用者のこと。難しい言い方をすると、最終的にITシステムが価値を提供する相手のこと。


  • 監視システムの本質的な価値

人力による24/365の目視等を行わなくても、システムがそれを代行し、人間は異常がある状態を検知した時だけ対応すればよくなる

人力でやると大変、または人力でやるのが到底不可能なことについて、監視システムを利用することで、

省力的に、かつ高品質な監視を提供することができる。


あとがき

監視の定義については「入門 監視」に記載された以下の定義が良いと思う。

書籍にも書かれているが、この定義はGreg Poirier氏がMonitorama 2016というカンファレンスで紹介したものである


監視とは、あるシステムやそのシステムのコンポーネントの振る舞いや出力を観察しチェックし続ける行為である。


【次回】→ 監視チューニング編