はじめに
- 前回、システム運用改善のタスク(案)を列挙したところまで対応しました。
- 今回は、その続きとして何をやったか?を書きます。
- 弊社が利用しているアーキテクチャの情報が載っていますが、適宜ご自分の環境に読み替えてください
次のアクション
- 改善点を以下の3つにカテゴライズし、具体的なタスクを整理した。
- 可視化
- モニタリング
- 標準化/リファクタリング
- 改善は連動して行くので、1から順番に対応して行くことが好ましい。
ポイント
- 「場渡りな運用」ではなく、「再現性を持った運用」を実現するための改善を行う。
- 特にルールとフローの可視化・明文化を軸に置く(運用の拠り所を作る、という文化を根付かせ、定型化する)
- 標準化を行なったのちに効率化・自動化を実践していく
- まずはプロセスをあるべき姿に持っていき、そこから生産性向上をアプローチする
- 可視化は、インフラエンジニア2年以上のスキル・経験を持った人が理解できるレベルで作成する
- ログイン方法、コマンドの詳細な説明などは割愛し、ポリシー・検討内容、手順に特化していくイメージ
改善点(例)
可視化
- 情報の可視化
- 設計ポリシーの明文化
- (例)ホスト名、playbook、IPアドレス発番
- 業務フローの可視化
- (例)依頼対応、障害対応、稟議、購買
- 手順の可視化
- (例)手作業の業務、playbookのレビュー運用
- 一覧もの整理
- (例)サーバ管理表、IPアドレス管理台帳、NW構成図
- Readmeの拡充
- (例)前提条件の拡充(所要時間など)、書方の定義(更新ルールなど)
- 設計ポリシーの明文化
- 業務の可視化
- 手順のログ共有と蓄積
- (例)ターミナルログ取得の徹底と格納
- ノウハウの一元化と整理
- (例)Github にリンク集を整理
- DC対応Tips
- (例)入館、ラッキング、キッティング、トラブル対応
- 手順のログ共有と蓄積
- 情報セキュリティの可視化 ※詳細は後述
モニタリング
- モニタリング環境の整備
- KPI
- (例)QCD目標、SLA
- 作業状況
- (例)JIRAダッシュボード
- インシデント
- (例)JIRAダッシュボード
- KPI
- システム状況分析
- ノウハウの整理
- (例)Datadog、Cloudera Manager、OMSA、vSphere Client
- ノウハウの整理
- 業務状況分析
- JIRAチケットの分析
- インシデント情報の分析
- 障害再発防止策の分析
- 情報セキュリティモニタリング ※詳細は後述
標準化/リファクタリング
- 設計の標準化
- ベストプラクティスの整理
- 業務ツール刷新
- インフラ
- (例)Jenkins × ansible
- 管理ツール
- (例)confluence
- インフラ
- 新アーキテクチャへの追随
- OS
- MW
- ツール
- playbookの共通化
-
モジュール
と実行
のplaybookを明示的に分割する
-
- playbookの再現性向上
- 障害対応スピード向上
- 検知〜分析
- 分析〜対応
- 再発防止〜記録
- (例)JIRAに障害情報のプロジェクトを作成して、情報を記録