Posted at

システム運用業務改善への二歩目


はじめに


  • 前回、システム運用改善のタスク(案)を列挙したところまで対応しました。



  • 今回は、その続きとして何をやったか?を書きます。


    • 弊社が利用しているアーキテクチャの情報が載っていますが、適宜ご自分の環境に読み替えてください




次のアクション


  • 改善点を以下の3つにカテゴライズし、具体的なタスクを整理した。


    1. 可視化

    2. モニタリング

    3. 標準化/リファクタリング



  • 改善は連動して行くので、1から順番に対応して行くことが好ましい。


ポイント


  • 「場渡りな運用」ではなく、「再現性を持った運用」を実現するための改善を行う。


    • 特にルールとフローの可視化・明文化を軸に置く(運用の拠り所を作る、という文化を根付かせ、定型化する)



  • 標準化を行なったのちに効率化・自動化を実践していく


    • まずはプロセスをあるべき姿に持っていき、そこから生産性向上をアプローチする



  • 可視化は、インフラエンジニア2年以上のスキル・経験を持った人が理解できるレベルで作成する


    • ログイン方法、コマンドの詳細な説明などは割愛し、ポリシー・検討内容、手順に特化していくイメージ




改善点(例)


可視化


  • 情報の可視化


    • 設計ポリシーの明文化


      • (例)ホスト名、playbook、IPアドレス発番



    • 業務フローの可視化


      • (例)依頼対応、障害対応、稟議、購買



    • 手順の可視化


      • (例)手作業の業務、playbookのレビュー運用



    • 一覧もの整理


      • (例)サーバ管理表、IPアドレス管理台帳、NW構成図



    • Readmeの拡充


      • (例)前提条件の拡充(所要時間など)、書方の定義(更新ルールなど)





  • 業務の可視化


    • 手順のログ共有と蓄積


      • (例)ターミナルログ取得の徹底と格納



    • ノウハウの一元化と整理


      • (例)Github にリンク集を整理



    • DC対応Tips


      • (例)入館、ラッキング、キッティング、トラブル対応





  • 情報セキュリティの可視化 ※詳細は後述


モニタリング


  • モニタリング環境の整備


    • KPI


      • (例)QCD目標、SLA



    • 作業状況


      • (例)JIRAダッシュボード



    • インシデント


      • (例)JIRAダッシュボード





  • システム状況分析


    • ノウハウの整理


      • (例)Datadog、Cloudera Manager、OMSA、vSphere Client





  • 業務状況分析


    • JIRAチケットの分析

    • インシデント情報の分析

    • 障害再発防止策の分析



  • 情報セキュリティモニタリング ※詳細は後述


標準化/リファクタリング


  • 設計の標準化


    • ベストプラクティスの整理



  • 業務ツール刷新


    • インフラ


      • (例)Jenkins × ansible



    • 管理ツール


      • (例)confluence





  • 新アーキテクチャへの追随


    • OS

    • MW

    • ツール



  • playbookの共通化

  • playbookの再現性向上

  • 障害対応スピード向上


    • 検知〜分析

    • 分析〜対応

    • 再発防止〜記録


      • (例)JIRAに障害情報のプロジェクトを作成して、情報を記録