はじめに
実務を通して実務のシステム運用保守で大切な事をまとめました。
私個人の学びをまとめております。
1.本来、あるべき姿を追求する
システムの設定は過去の設定を元になんとなく設定ではなく、
本来、求められている設定になっているかの視点でシステムを設定する必要があります
上記の視点を常に持つことです。
2. サービスを提供していることを意識する
運用保守の仕事は求められているサービス提供に影響が出るものに関しては
クリティカルに対応する必要がある。
本来実施すべきことが出来ていないケースはより優先度が高めになります。
特に監視設定は優先度が高くなります。
3.一つのサーバーに影響があれば他のサーバも調査
一つのサーバに障害があれば同じ構成の他のサーバも同様な事象が起きていないか確認する習慣をつけた方が良いです。
障害がある一つのサーバのみ調査して完了したつもりでいることが多いです。
4.本番環境で使用実績があるコマンドを使用する
本番環境で使用実績があるコマンドを優先して使用することをお勧めします。
普段使わないコマンドをいきなり本番環境で使用することはお勧めしません。
必ずコマンドの動作確認を実施後、本番環境で使用する
コンテナのコマンド「docker attach」の様に使い方によってはコンテナが停止するコマンドもあります。
5.新規の設定は必ず現行の設定と比較する
新規で設定する場合は必ず現行のサーバの設定ファイルとの差分を比較した方が良い。
設定漏れが隠れている可能性があります。
以下のコマンドは空行を非表示にして先頭に#がついたコメント行を非表示になり、見やすくなるためお勧めのコマンドです。
cat 設定ファイル | grep -v ^$ | grep -v ^#
6.説明するときは私と同じ情報を持っていない前提で会話する
ユーザやチームの方に説明するときは自分が頭の中にある情報がほかの方が持っていない前提で説明した方が丁寧で説明不足をなくせます。
7.自動化は大変工数を削減できるがミスると影響が大きくなります
例えば不要な設定ファイルを一括削除するスクリプトを作成したら一括で削除できて
工数削減出来て繰り返し使用できますが、スクリプトに間違いがあると大きな事故になります。
自動化は大きな事故と隣り合わせのため、検証は十分に行う必要あり。
すべての分岐条件でテストを実施する必要があります。
8.クラウド環境を使用する場合は一般公開できない設定にする
クラウド環境を使用する場合は還元を絞り、一般公開できない設定にすることをお勧めします。少しでも一般公開を選択した場合でも、セキュリティ事故になります。
まとめ
システム運用保守で必要なことをまとめました
仮に環境がAWSであってもシステム運用保守で気を付ける点は同じです。
参考になれば幸いです。