はじめに
SREやフィールドエンジニア、運用保守エンジニアはプログラミングだけではなく本番環境へのデプロイや設定変更などのオペレーションを行うことも多いと思います。
本記事ではオペレーション品質を向上をし続けるために実践していることを5つのトピックにまとめました。細かく上げれば他にもいっぱいありますが、大きな要素を主に記載します。
1.練習・研修環境の充実
2.OJTの属人化脱却
3.インシデントもヒヤリハットも全部拾う
4.問題管理及び問題解決を継続的に行う
5.継続的教育
1.練習・研修環境の充実
どんな業務でも練習できるなら練習して本番に臨めるに越したことはありません。容易に練習できる環境が整っていれば本番で本来の力も発揮しやすくなるでしょう。
・壊してもすぐに元に戻せる環境
初級者はどうしても多くの失敗をしますので、その都度環境構築していたら大変です。壊してもすぐに元に戻せる、または何回でも同じことを繰り返し練習できる環境を準備し、トレーニングできる機会を増やしました。
・使いたいときにすぐに使える環境
ちょっと空いた時間に練習したいとか、急に人が増たときなど都度練習環境を準備していると間に合わないため、いつでもすぐに使える環境を一定数準備しています。
※DBも含んだ環境のためDockerのようにモダンな仕組みではなく、仮想サーバのイメージバックアップを使ってます。(2022/05現在)
2.OJTの属人化問題からの脱却
OJTは業務を覚えるうえでよい方法だと思いますが、最大のデメリットとしてOJTトレーナーによって教える内容や教え方が異なり、その結果新メンバーの理解度や習熟度にも差が出てくる場合があります。このデメリットを解消するため以下の対策を実施しています。
・OJT内容の標準化
研修が終わった後OJTを行いますが、複数いるOJTトレーナーに完全に任せてしまうと教え方にばらつきがでてしまいます。そのため、必ず教えるべきことをチェックリスト化し、新メンバーに必要事項を必ず伝えられるようにしています。
・一人前とみなす基準の明確化
OJTトレーナーが新メンバーを一人前とみなす基準もあいまいになる可能性があるため、こちらもチェックリストを作り新メンバーが1人前となった基準をそろえ、誰がOJTトレーナーになっても一定のスキルがついたことを評価できるようにしました。
※こういった仕組みを整えることにより、OJTの属人化や品質のばらつきが発生しにくくなりました。
3.インシデントもヒヤリハットも全部拾う
・報告しやすい仕組み、運用ルールの策定
作業報告のフォーマットやヒヤリハットの原因などMECEでわかりやすく、記入しやすいように整備し適時ブラッシュアップ。また、毎週かならず報告日を設けることによって報告漏れを防止します。
・心理的安全性の確保
ヒヤリハットはインシデントや重大障害の種になるので、報告を積極的に推奨します。日ごろからヒヤリハットの報告を推奨することにより、インシデントの報告を報告しやすい体制を作り、原因を個人ではなく仕組みにあるという前提で問題解決に対する協議を行います。
※仕組みの簡素化や心理的安全性は全員が満足するように完全になるのは難しいですが、日々心掛け続けることを意識しています。
4.問題管理及び問題解決を継続的に行う
・問題解決の方針をメンバーで協議
3で報告されたインシデントやヒヤリハットをRedmineでチケットとして管理し、関係者で再発防止の検討を行います。この際に大事にしているのは問題の本質が何なのかを見極め決して個人の問題にしないことです。仮に知識不足が原因の問題があった場合は、研修コンテンツの不足もしくは知識不足でも問題発生させないために手順書を修正できないか、と考えるようにします。
・問題の分類を適切に行い、再発防止策を決める
関係者で協議し、汎用的な再発防止が必要の場合は手順書やチェックシートの修正、教育コンテンツへの追記を行うなどの対応を行います。また、個別環境ごとの特殊事情の場合は個別環境の管理情報へ追記するなどの方針を決めます。
・問題解決状況をウォッチし継続的にリーダーやマネージャーがフォローする
問題解決状況はRedmineチケットを、リーダーやマネージャーが定期的にチェックし、進捗が良くない場合はフォローしたり担当の見直しなどを行います。
※ここはリーダーやマネージャーがどこまで徹底できるかという管理側の意思がかなり大事だと思ってます。
5.継続的教育
・トラブルリカバリーハンズオン研修
どれだけ手順やチェックシート詳細化しても、想定外の事象は起こりトラブル発生をゼロにすることはできません。そのためトラブル事例を再現した環境を準備しトラブルリカバリーのハンズオン研修を行っています。
・よくあるトラブル集をまとめ、1年に2回復習する機会を作る
Pマーク研修や避難訓練のようなものをイメージしていただくとわかりやすいと思いますが、エンジニア全員が定期的に受講する定期教育としてよくあるトラブル集ヒヤリハット集をまとめ、年に2回復習する機会を設けています。この際には座学だけではなくテストも実施することにより理解度チェックを行います。
※スポーツでもなんでも同じですが、エンジニアも基本は大事なので定期的に初心を振り返れるようにしました。技術的な内容ではなくよくある見落としや油断などを共有しています。
その他
インシデント数/率やヒヤリハット数/率を可視化し品質が継続的に向上していることをメンバーや社内他部門にも実感として持てるようにしています。
まとめ
どれも特別なことではなく当たり前のことばかりですが、こういった地道な活動を続けることによって担当者が入れ替わってもオペレーション品質を維持し続けられるように心がけています。