Linux
MySQL

システム運用業務改善への二歩目

はじめに

  • 前回、システム運用改善のタスク(案)を列挙したところまで対応しました。
  • 今回は、その続きとして何をやったか?を書きます。
    • 弊社が利用しているアーキテクチャの情報が載っていますが、適宜ご自分の環境に読み替えてください

次のアクション

  • 改善点を以下の3つにカテゴライズし、具体的なタスクを整理した。
    1. 可視化
    2. モニタリング
    3. 標準化/リファクタリング
  • 改善は連動して行くので、1から順番に対応して行くことが好ましい。

ポイント

  • 「場渡りな運用」ではなく、「再現性を持った運用」を実現するための改善を行う。
    • 特にルールとフローの可視化・明文化を軸に置く(運用の拠り所を作る、という文化を根付かせ、定型化する)
  • 標準化を行なったのちに効率化・自動化を実践していく
    • まずはプロセスをあるべき姿に持っていき、そこから生産性向上をアプローチする
  • 可視化は、インフラエンジニア2年以上のスキル・経験を持った人が理解できるレベルで作成する
    • ログイン方法、コマンドの詳細な説明などは割愛し、ポリシー・検討内容、手順に特化していくイメージ

改善点(例)

可視化

  • 情報の可視化
    • 設計ポリシーの明文化
      • (例)ホスト名、playbook、IPアドレス発番
    • 業務フローの可視化
      • (例)依頼対応、障害対応、稟議、購買
    • 手順の可視化
      • (例)手作業の業務、playbookのレビュー運用
    • 一覧もの整理
      • (例)サーバ管理表、IPアドレス管理台帳、NW構成図
    • Readmeの拡充
      • (例)前提条件の拡充(所要時間など)、書方の定義(更新ルールなど)
  • 業務の可視化
    • 手順のログ共有と蓄積
      • (例)ターミナルログ取得の徹底と格納
    • ノウハウの一元化と整理
      • (例)Github にリンク集を整理
    • DC対応Tips
      • (例)入館、ラッキング、キッティング、トラブル対応
  • 情報セキュリティの可視化 ※詳細は後述

モニタリング

  • モニタリング環境の整備
    • KPI
      • (例)QCD目標、SLA
    • 作業状況
      • (例)JIRAダッシュボード
    • インシデント
      • (例)JIRAダッシュボード
  • システム状況分析
    • ノウハウの整理
      • (例)Datadog、Cloudera Manager、OMSA、vSphere Client
  • 業務状況分析
    • JIRAチケットの分析
    • インシデント情報の分析
    • 障害再発防止策の分析
  • 情報セキュリティモニタリング ※詳細は後述

標準化/リファクタリング

  • 設計の標準化
    • ベストプラクティスの整理
  • 業務ツール刷新
    • インフラ
      • (例)Jenkins × ansible
    • 管理ツール
      • (例)confluence
  • 新アーキテクチャへの追随
    • OS
    • MW
    • ツール
  • playbookの共通化
  • playbookの再現性向上
  • 障害対応スピード向上
    • 検知〜分析
    • 分析〜対応
    • 再発防止〜記録
      • (例)JIRAに障害情報のプロジェクトを作成して、情報を記録